LLM 에이전트 자기진화 능력 분리 연구: 업데이트와 수혜는 다르다

LLM(대규모 언어 모델) 에이전트가 실행 증거를 바탕으로 프롬프트·스킬·메모리·도구 등 외부 하네스(harness)를 스스로 수정하는 ‘하네스 자기진화(harness self-evolution)’ 능력을 두 가지 하위 역량으로 분리 분석한 연구가 arXiv에 공개됐다(논문 번호 2605.30621). 연구팀은 (i) 실행 증거에서 유용한 하네스 업데이트를 생성하는 ‘하네스 업데이팅(harness-updating)’ 능력과 (ii) 업데이트된 하네스를 활용해 성능 향상을 이끌어내는 ‘하네스 수혜(harness-benefit)’ 능력이 독립적으로 다르다는 핵심 발견을 제시했다.

실험에서 두 가지 주목할 사실이 드러났다. 첫째, 하네스 업데이팅 능력은 기반 모델의 성능 등급과 무관하게 평탄한 분포를 보였다. 즉 약한 모델인 Qwen3.5-9B가 만든 하네스 업데이트와 강력한 Claude Opus 4.6이 만든 업데이트가 결과적으로 비슷한 수준의 성능 향상을 가져왔다. 둘째, 하네스 수혜는 비단조적(non-monotonic) 패턴을 보였다. 성능이 약한 모델은 업데이트된 하네스로 거의 이득을 얻지 못했고, 중간 성능 모델이 가장 큰 혜택을 받았으며, 최고 성능 모델은 중간 모델보다 오히려 이득이 적었다. 약한 모델의 낮은 수혜는 관련 하네스를 활성화하지 못하거나, 활성화해도 지시를 충실히 따르지 못하는 두 가지 실패 모드 때문이었다.

이 연구는 자기진화 LLM 에이전트 설계에 실용적인 함의를 제공한다. 능력 예산을 진화자(evolver)보다 태스크 수행 에이전트에 투자하는 것이 더 효과적이며, 에이전트 훈련에서 하네스 활성화 능력과 장기 지시 추종 능력을 집중적으로 개선해야 한다는 설계 원칙을 도출했다. 에이전트 AI 시스템을 개발하는 기업들이 모델 성능 등급별 자기개선 전략을 차별화하는 근거로 활용할 수 있다.