LLM 코드 진화로 적대적 게임 전략 자동 발견, AAMAS 대회 1위

대규모 언어 모델(LLM) 기반 코드 진화 기법을 적대적 다중 에이전트 게임에 적용하는 과정에서 발생하는 핵심 난제, 즉 전략이 발전할수록 평가 환경 자체가 변해 고정된 평가자가 신뢰성을 잃는 문제를 해결하는 공진화 메커니즘이 제안됐다. 연구팀은 이 문제를 해결하기 위해 세 가지 메커니즘을 제안했다. 첫째는 발견된 최강 전략을 상대 풀에 편입하는 평가자 공진화, 둘째는 소수 게임의 잡음 많은 점수 대신 통계적으로 신뢰할 수 있는 평가로 대체하는 계층적 심층 평가, 셋째는 가장 어려운 상대에 동적으로 더 높은 가중치를 부여해 정체기를 돌파하는 약점 압박이다.

연구팀은 이 세 메커니즘을 OpenEvolve 및 ShinkaEvolve와 동일한 기반 모델 코드 진화 패러다임 위에 구축한 프레임워크 FAMOU에 구현했다. MCTF 2026 3대3 해양 깃발 탈취 과제에서 FAMOU는 두 가지 백본 LLM 환경 모두에서 기존 기준선을 일관되게 능가했으며, 최고 종합 점수 0.526과 미지의 상대에 대한 61.7%의 최고 승률을 달성했다. 절제 실험(ablation)을 통해 세 메커니즘 각각이 성능에 기여함도 확인됐다.

특히 주목할 만한 것은 LLM 돌연변이 과정이 초기 시드 전략에 전혀 없던 전술 구조, 즉 룩어헤드 탐색과 적응형 차단 전략을 자발적으로 생성했다는 점이다. 이는 코드 수준의 진화가 적대적 환경에서 비자명한 알고리즘적 혁신을 만들어낼 수 있음을 보여준다. FAMOU로 진화된 전략은 AAMAS 2026 MCTF 경진 대회 하드웨어 라운드 로빈에서 1위, 시뮬레이션 부문에서 3위를 차지해 실제 환경으로의 이전 가능성도 함께 검증됐다. 연구팀은 진화 과정에서 개발된 최적화 구현 코드와 평가 코드를 오픈소스로 공개했다.