연구팀이 동적 환경에서 LLM(대규모 언어 모델) 에이전트의 기억 진화를 추적하는 벤치마크 스위트 EvoArena와 패치 기반 메모리 패러다임 EvoMem을 제안했다. 기존 AI 에이전트 평가는 대부분 정적 환경을 전제로 설계됐으나, 실제 배포 환경에서는 지식·기술·행동이 끊임없이 변화하는 조건에 맞춰 갱신돼야 한다는 문제의식에서 출발한 연구다.
EvoArena는 터미널·소프트웨어·소셜 도메인에 걸쳐 환경 변화를 연속적인 점진적 업데이트 시퀀스로 모델링한다. 현재 에이전트들은 이 벤치마크에서 평균 정확도 39.6%를 기록해 동적 환경 적응에 여전히 한계를 드러냈다. EvoMem은 메모리 변화를 구조화된 업데이트 이력으로 기록해 에이전트가 환경 변화를 추론할 수 있도록 지원한다. 실험 결과 EvoMem은 EvoArena에서 평균 1.5% 성능 향상을 보였으며, 기존 표준 벤치마크인 GAIA와 LoCoMo에서도 각각 6.1%, 4.8% 향상을 달성했다.
서로 연관된 진화 하위 작업을 연속으로 완수해야 하는 체인 수준 정확도에서도 EvoMem은 3.7% 향상을 기록했다. 단발성 작업뿐 아니라 변화가 누적되는 연쇄 상황에서도 효과가 유지된다는 의미다. 메커니즘 분석에서는 EvoMem이 메모리 내 증거 포착을 개선해 변화하는 환경 상태 전체를 더 잘 보존한다는 사실이 확인됐다. 메모리를 통째로 덮어쓰는 대신 변화를 구조화된 업데이트 이력으로 누적하는 패치 방식이, 에이전트가 과거와 현재 상태의 차이를 추론하는 데 핵심 역할을 한 것으로 풀이된다.
연구팀은 신뢰할 수 있는 에이전트 배포를 위해 평가와 메모리 모두에서 환경 진화를 모델링하는 것이 중요하다고 강조했다. 실제 서비스 환경은 지식과 도구, 사용자 요구가 끊임없이 바뀌는데, 정적 벤치마크만으로 측정하면 에이전트의 실제 역량을 과대평가하기 쉽다는 것이다. 현재 에이전트들이 EvoArena에서 평균 39.6%에 그친 결과는 이 격차를 단적으로 보여준다. EvoArena와 EvoMem은 변화하는 환경을 정면으로 다루는 평가·기억 설계가 차세대 에이전트 연구의 핵심 과제임을 시사한다.














