RefGRPO, 에이전트 RL의 '자기반성 오류' 교정…text-to-SQL 정확도 향상

RefGRPO, 에이전트 RL의 ‘자기반성 오류’ 교정…text-to-SQL 정확도 향상

대규모 언어 모델(LLM)을 에이전트로 활용할 때 발생하는 핵심 취약점 하나가 새 연구를 통해 조명됐다. 2026년 6월 12일 arXiv에 게재된 논문 “Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL”에 따르면, LLM 에이전트는 실행 결과·오류 메시지·도구 출력 같은 환경 피드백을 받은 뒤에도 자신의 출력을 잘못 평가하는 경향이 있다. 연구진은 이를 ‘반성 격차(reflection gap)’라 명명하며, 기존 강화학습(RL) 방식만으로는 이 문제가 잘 해결되지 않는다고 분석했다. 보상 신호가 에이전트의 자기반성 행동에 제대로 귀속되지 않는 ‘크레딧 귀속 불일치(credit-assignment mismatch)’ 때문이다.

이를 보완하기 위해 연구진은 RefGRPO를 제안했다. RefGRPO는 표준 RL 알고리즘에 두 가지 요소를 덧붙인다. 첫째는 ‘자유 보정 보너스(free calibration bonus)’로, 에이전트 자신의 반성 내용과 실제 결과를 대조해 산출된다. 별도의 보상 모델, LLM 심판, 외부 주석 없이 계산되기 때문에 추가 비용 없이 적용 가능하다는 점이 특징이다. 둘째는 이 보너스 계수에 동적 스케줄을 적용해 학습 전 과정에서 효과를 안정적으로 유지하도록 설계됐다.

brown wooden blocks on white table — 사진: Brett Jordan / Unsplash

실험에서 RefGRPO는 5개 벤치마크의 text-to-SQL 과제에서 표준 RL 대비 ‘과소신뢰(underconfidence)’ 비율을 44.4%에서 7.7%로 낮추고, 과제 정확도를 75.1%에서 76.5%로 끌어올렸다. 보정된 자기반성 능력은 에이전트가 환경 피드백에 근거한 자체 검증자 역할을 수행할 수 있게 한다. 이를 바탕으로 결과 감독 없이 반성 내용을 의사 보상(pseudo-reward)으로 활용한 자기 개선이 가능해지고, 추론 시점에도 올바른 것으로 판단된 경로만 선택적으로 실행하는 예측 전략을 구현할 수 있다. 연구는 에이전트 RL의 자기 평가 신뢰성을 높이는 간단하고 비용 효율적인 접근법으로, 도구 사용·코드 실행 등 피드백 기반 에이전트 설계 전반에 적용 가능성이 있다고 평가된다.