LLM에게 자신의 한계를 가르치는 강화학습 기반 역량 자기평가

현재 대규모 언어 모델(LLM)들은 자신이 풀 수 없는 문제도 풀 수 있다고 과신하는 경향이 있다. Yang 등 연구진은 이 문제를 정면으로 다룬 논문(arXiv:2606.00251)에서 역량 자기평가(Capability Self-Assessment, CSA)를 정책 학습 문제로 형식화하고, 모델이 주어진 문제를 스스로 해결할지 위임할지를 판단하는 능력을 개선하는 방법을 제안했다. 연구진은 다양한 모델 계열과 규모에 걸쳐 현대 LLM이 체계적으로 자신의 역량을 과대평가하고 해결하지 못하는 쿼리를 시도한다는 사실을 입증했다.

CSA 개선을 위해 두 가지 학습 방법을 비교 실험했다. 강화학습을 적용한 결과, 모델의 원래 역량을 유지하면서 자기평가 능력을 크게 향상시켰다. 반면 지도 파인튜닝은 자기평가 능력을 소폭 높이는 대신 모델이 평가해야 할 바로 그 역량을 심각하게 훼손했다. 논문은 학습된 자기평가 행동이 학습 분포 밖의 쿼리에서도 잘 일반화됨을 확인했는데, 이는 CSA가 모델에 전이 가능한 특성으로 형성될 수 있음을 시사한다. 실용적 관점에서도 이 접근법은 추론 시 로컬-클라우드 라우팅 결정을 개선하고, 훈련 데이터 선별을 위한 신호로도 활용 가능하다는 점이 확인됐다.

Wooden letter blocks spell out 'Soft Skills', highlighting business and personal development concepts. — 사진: Ann H / Pexels

이 연구는 AI 안전성과 신뢰성의 핵심 문제 중 하나를 겨냥한다. 에이전트 AI 시스템이 복수의 모델을 협력시키는 환경에서는, 각 모델이 자신의 처리 가능 범위를 정확히 알고 그 범위를 벗어나는 작업을 적시에 위임하는 것이 전체 시스템의 안정성에 직결된다. 과신하는 모델은 잘못된 답을 자신 있게 내놓아 하위 시스템이나 사용자를 오도할 위험이 있다. CSA 훈련이 이 문제를 해결하는 실용적 경로가 될 수 있다는 이번 결과는, 자기 인식(self-awareness) 기능을 LLM 개발의 정식 요건으로 포함해야 한다는 논의를 강화할 전망이다.