LLM 에이전트 스스로 개선하는 자기지도 최적화 기법 RHO 제안

AI 에이전트가 외부 정답 데이터 없이 자신의 과거 실행 기록만을 활용해 성능을 스스로 높이는 자기지도 최적화 기법이 새롭게 제안됐다. 연구팀이 공개한 논문에 따르면, RHO(Retrospective Harness Optimization)는 에이전트가 복잡한 문제를 해결할 때 사용하는 스킬·도구·워크플로 묶음인 하네스(harness)를 별도의 레이블 데이터셋 없이 지속적으로 개선하는 방법론이다.

RHO의 핵심 작동 방식은 세 단계로 구성된다. 먼저 에이전트는 과거 궤적 가운데 난도가 높은 과제들을 선별해 다양성을 확보한 핵심 집합(coreset)을 구성한 뒤, 이를 병렬로 재풀이한다. 이어 자기 검증(self-validation)과 자기 일관성(self-consistency) 분석을 통해 하네스 갱신 후보를 생성하고, 마지막으로 쌍별 자기선호(pairwise self-preference) 방식으로 가장 효과적인 갱신안을 채택한다. 이 전 과정에서 외부 채점자나 정답 검증 세트가 일절 필요하지 않다는 점이 기존 방법론과의 결정적 차이다.

A vibrant workspace featuring colorful code on computer monitors, ideal for developers. — 사진: Jakub Zerdzicki / Pexels

연구팀은 소프트웨어 엔지니어링, 기술 업무, 지식 업무 등 세 가지 서로 다른 도메인에 걸쳐 RHO를 평가했다. 그 결과 단 한 번의 최적화 라운드만으로 소프트웨어 엔지니어링 벤치마크인 SWE-Bench Pro의 통과율이 59%에서 78%로 상승했다. 논문은 또한 RHO가 이전 실패 패턴을 효과적으로 겨냥한다는 분석을 제시하며, 최적화된 하네스가 에이전트의 행동 양식 자체를 변화시켜 장기 세션에서도 높은 정확도를 유지하게 만든다고 밝혔다.

실제 현장에서 레이블이 달린 검증 데이터를 수집하는 일은 비용과 시간 측면에서 큰 부담이어서, 기존 에이전트 최적화 연구들은 이 지점에서 현실 적용 가능성에 한계를 드러내왔다. RHO는 이 병목을 우회해 배포 환경에서 지속적으로 에이전트를 개선할 수 있는 경로를 제시한다는 점에서 향후 자율형 AI 에이전트 개발에 실질적인 영향을 미칠 것으로 평가된다.