NeurIPS 2025 MindGames Arena 일반화 트랙 대회에서 80억 매개변수 오픈소스 모델이 훨씬 큰 독점 시스템, 특히 GPT-5를 능가해 오픈·효율(<=8B) 두 트랙 모두 1위를 차지한 사례가 arXiv 논문(2606.00017)으로 공개됐다. In2AI 팀이 개발한 이 접근법은 멀티에이전트 전략적 상호작용 환경에서 언어 모델 에이전트를 훈련하는 핵심 난제를 정면으로 다룬다.
연구팀은 표준 강화학습(RL)이 멀티에이전트 환경에서 왜 성능을 발휘하기 어려운지를 분석했다. 어떤 행동의 품질이 미래에 발생하지 않은 사건, 게임 규칙을 위반한 수, 또는 다른 플레이어의 결정에 의존하기 때문에 단계별 보상 할당이 본질적으로 어렵다는 점이 문제다. 이를 해결하기 위해 이들은 ‘지연된 단계별 보상 귀속 및 적격 게이팅(delayed per-step reward attribution with eligibility gating)’이라는 에피소드 수명주기 파이프라인을 도입했다. 이 방식은 보상 계산을 에피소드 종료 시점까지 미루고, 과제별 의미론에 따라 기여한 단계들로 역전파하며, 유효한 정보가 없는 단계는 훈련에서 제외한다.

훈련 효율화를 위해서는 vLLM의 연속 배칭(continuous batching)을 통한 비동기 롤아웃 생성, 커리큘럼 기반 상대방 샘플링, 다단계 계층화 배치 구성 등의 기법을 결합해 멀티에이전트 환경에서 안정적이고 샘플 효율적인 RL 훈련을 가능케 했다. 이 연구의 의미는 단순히 대회 우승을 넘어, 소형 오픈소스 모델도 적절한 훈련 파이프라인을 갖추면 대형 독점 모델에 필적하는 전략적 추론 능력을 획득할 수 있음을 실증했다는 점에 있다. 멀티에이전트 RL 분야에서 오픈소스 생태계의 경쟁력을 높이는 방향성을 제시한 사례로 주목받을 전망이다.


