LLM 장기 에이전트 학습 프레임워크 'CoD', 도메인 간 일반화 검증

LLM 장기 에이전트 학습 프레임워크 ‘CoD’, 도메인 간 일반화 검증

LLM(대규모 언어 모델) 기반 에이전트가 장기간 환경에 배포되면서 스스로 경험을 축적하고 점진적으로 성능을 높이는 능력을 학습시키는 일반 프레임워크가 arXiv 논문(arXiv:2606.20002)으로 공개됐다. 연구팀은 이 능력을 ‘CoD(Connect the Dots)’라 명명했다. 에이전트가 환경 탐색과 과제 수행을 반복하면서 맥락을 스스로 갱신하고, 그 갱신된 맥락을 바탕으로 이후 과제에서 더 나은 결과를 내도록 훈련하는 메타 능력(meta-capability)이다.

CoD 프레임워크는 크게 두 가지 구성 요소로 이뤄진다. 첫째는 알고리즘 설계와 인프라로, 과제 수행 에피소드와 맥락 갱신 에피소드를 교차하는 긴 롤아웃 시퀀스에서 엔드-투-엔드 강화학습(RL)을 지원한다. 둘째는 훈련 및 평가를 위한 과제와 환경 설계로, 특정 도메인 역량이 아닌 목표 메타 능력 자체를 유도하고 측정할 수 있게 설계됐다. 연구팀은 세밀한 크레딧 할당 방식을 적용한 GRPO 스타일 RL 알고리즘의 개념 검증 구현도 함께 제시했다.

실험 결과에서는 엔드-투-엔드 RL 훈련이 CoD 환경에서 효과적임이 확인됐다. 또한 훈련 도메인 내부와 서로 다른 도메인 사이, 그리고 CoD에서 랄프 루프(Ralph-loop) 설정으로의 이전 등 다양한 조건에서 분포 외(out-of-distribution) 일반화 가능성이 실증됐다. 연구팀은 CoD가 기존 여러 연구 흐름을 연결하는 동시에 LLM과 AI 에이전트 발전을 위한 새로운 연구 방향을 제시한다고 밝혔다. 구현 코드는 AgentScope AI의 Trinity-RFT 저장소를 통해 공개됐다.

이번 연구는 에이전트가 단일 과제를 잘 처리하는 수준을 넘어, 배포 이후에도 환경과 상호작용하며 자율적으로 역량을 키워가는 이른바 ‘생애주기 에이전트’를 만들기 위한 학습 방법론을 체계화한다는 점에서 의미가 있다. 기존 단계별 RL 방식이 개별 과제 성능에 집중한 것과 달리, CoD는 맥락 갱신 능력 자체를 학습 목표로 삼는다. 실제 장기 배포 환경에서 에이전트가 사람의 개입 없이 꾸준히 개선될 수 있는지를 검증하는 후속 연구로 이어질 전망이다.