LLM이 점점 강해질수록 약한 감독자(supervisor)가 복잡한 출력에 대해 신뢰할 수 있는 레이블이나 판단을 제공하기 어려워진다는 문제가 AI 안전·정렬 연구의 핵심 난제로 떠올랐다. arXiv에 공개된 논문 “Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight”(2606.00424)는 이 문제를 다루는 새 접근법을 제안한다. 기존의 약한-강한 일반화(weak-to-strong generalization) 연구가 약한 모델에게 과제를 풀거나 정답을 선택하는 역할을 맡겼다면, 이 연구는 역할을 전환한다. 약한 모델이 과제를 직접 해결하는 대신, 강한 모델이 스스로 더 잘 활용할 수 있도록 오해를 유발하지 않는 수정 방향만 제시하는 ‘비평가(critic)’ 역할을 수행하게 한다. 연구진은 이 설정을 ‘약한-비평가 강한-감독(weak-critic strong oversight)’이라고 명명했다.
구체적인 구현 방법은 점진적 온폴리시 비평 증류(OPCD, progressive On-Policy Critique Distillation)다. 이 방법은 품질 높은 비평을 필터링하고, 비평이 유도하는 행동을 적응적 자기교사(self-teacher) 신호를 통해 강한 모델에 증류하는 과정으로 이루어진다. 실험은 먼저 추론 시점에서 약한 비평이 동결된 강한 모델의 성능을 향상시킬 수 있는지 확인한 뒤, 훈련 단계에서의 OPCD 효과를 측정하는 순서로 진행됐다. 추론 및 정렬 벤치마크에서 OPCD를 적용한 결과, 강한 모델의 성능이 훈련 에포크 전반에 걸쳐 지속적으로 향상되는 것이 확인됐다.

이 연구의 의의는 약한 감독이 실용적으로 기능하는 조건을 명확히 한 데 있다. 약한 모델이 복잡한 과제에서 정답을 가려내는 능력이 부족해도, 강한 모델이 자신의 지식을 더 잘 활용하도록 방향을 제시하는 데는 충분할 수 있다는 것이다. 이는 점점 더 강력해지는 모델을 어떻게 감독할 것인가라는 확장 가능 감독(scalable oversight) 문제에 대한 하나의 실용적 해법으로, 비평 품질이 결과를 좌우하는 핵심 변수임을 함께 밝혀냈다.


