LLM 사전학습 모델에 잠재된 자기평가 능력, 소량 데이터로 이끌어낸다

LLM(대규모 언어 모델)이 별도의 학습 없이도 외부 심사 모델의 채점 방식을 상당 수준으로 예측할 수 있다는 연구 결과가 나왔다. arXiv에 공개된 논문에 따르면, 파인튜닝을 거치지 않은 기반 모델(base model)에 퓨샷(few-shot) 프롬프트만 적용해도 열린 형식 응답에 대한 다중 속성 품질 점수 예측이 무작위 수준을 크게 상회했다.

연구진은 이 잠재 능력을 효율적으로 끌어내기 위해 SEE(Self-Evaluation Elicitation)라는 기법을 제안했다. SEE는 두 단계로 구성된다. 먼저 캘리브레이션 기반 강화학습 단계에서 모델이 응답을 개선하는 동시에 심사 모델의 점수를 예측하도록 훈련하고, 이어서 마스크드 증류(masked distillation) 단계에서 응답 품질을 유지한 채 예측 정확도만을 높인다. 전체 훈련에 사용한 데이터는 160개 고유 사례로, 기존 강화학습 베이스라인 대비 약 31분의 1 수준에 불과하다.

논문이 강조하는 또 다른 특징은 전이 가능성이다. SEE로 유도된 자기평가 능력은 훈련 과정에서 접하지 않은 심사 모델에 대해서도 안정적인 예측 성능을 보였다. 연구진은 이를 특정 심사 모델의 선호도를 모방하는 것이 아니라 범용적인 품질 개념을 내면화한 결과로 해석했다. 이번 연구는 AI 모델 평가 비용을 줄이면서도 자기 진단 능력을 강화하는 방향으로 LLM 훈련 패러다임을 재구성할 수 있음을 시사한다. 기존에는 판단 능력의 부재를 전제로 대규모 학습 데이터를 통해 이를 습득시켜야 한다는 관점이 지배적이었으나, 이번 연구는 그 능력이 이미 내재해 있으며 소량 데이터로 유도 가능하다는 새로운 관점을 제시한다.