LLM 정책과 훈련 하네스를 함께 진화시키는 EvoTrainer

LLM(대규모 언어 모델)의 자율 훈련 프레임워크인 ‘EvoTrainer’가 공개됐다. 기존 자율 LLM 훈련은 훈련 레시피 탐색에 치중하면서 훈련 하네스(training harness)를 정적으로 유지하는 방식에 머물렀다. 연구팀은 에이전틱 강화학습(RL) 환경에서 병목 지점이 계속 이동하고 스칼라 보상 신호가 다양한 실패 유형을 가리는 문제를 지적하며, 정책과 하네스를 함께 진화시키는 새로운 접근법을 제시했다.

EvoTrainer는 경험적 피드백을 바탕으로 LLM 정책과 훈련 측 하네스를 동시에 공진화(co-evolve)하는 자율 훈련 프레임워크다. 롤아웃 수준의 증거를 진단하고, 진단을 수정하며, 개입 방식을 백테스트하고, 재사용 가능한 스킬을 축적하는 방식으로 동작한다. 수학적 추론, 경쟁 프로그래밍 코드 생성, 저장소 수준 소프트웨어 엔지니어링 과제를 대상으로 평가한 결과, 동일한 데이터·코드베이스·평가 프로토콜 하에서 사람이 설계한 RL 기준선을 대등하거나 초과하는 성능을 보였다. 특히 장기 에이전틱 소프트웨어 엔지니어링(SWE) 과제에서 가장 큰 성능 향상을 기록했다.

man about to kick another man — 사진: Trường Trung Cấp Kinh Tế Du Lịch Thành Phố Hồ Chí Minh CET / Unsplash

궤적 분석 결과 유지된 전략은 도메인별로 서로 다르게 발산했으며, 진화하는 진단 체계가 유효하지 않은 고득점 분기를 승격시키지 않도록 방지하는 역할을 했다. 또한 재사용 가능한 스킬이 이후 탐색 방향을 형성하는 것으로 나타났다. 연구팀은 자율 LLM RL이 레시피 탐색을 넘어 정책과 그것을 해석하는 훈련 하네스의 공동 진화 방향으로 나아가야 한다고 결론지었다.

AI 에이전트가 복잡한 소프트웨어 개발 과제를 자율적으로 수행하는 능력에 대한 관심이 높아지는 가운데, 강화학습 기반 훈련 방법론의 자동화는 에이전틱 AI 시스템 개발 비용과 시간을 줄이는 데 핵심 과제로 꼽힌다. EvoTrainer의 접근법은 고정된 훈련 설정에 의존하지 않고 환경 변화에 적응적으로 대응할 수 있다는 점에서 주목된다.