멀티턴 LLM(대규모 언어 모델) 에이전트의 서빙 정책을 하드웨어 가속기 없이 평가할 수 있는 시뮬레이터 AGENTSERVESIM이 제안됐다. 멀티턴 LLM 에이전트는 모델 호출과 외부 도구 실행을 번갈아 수행하는 구조로, 기존 단일 요청 처리 방식과 달리 상태 정보를 유지하는 프로그램 실행에 가깝다. 이러한 워크로드는 턴 간 의존성, 도구 실행으로 인한 공백, 재사용 가능한 KV 캐시(Key-Value Cache) 관리 등 기존 서빙 시뮬레이터가 다루지 못하는 복잡한 동적 특성을 갖는다.
연구진은 AGENTSERVESIM을 네 가지 모듈의 조합으로 설계했다. 프로그램 오케스트레이터는 프로그램 단위 정체성과 턴 순서를 보존하고, 도구 시뮬레이터는 도구 실행으로 발생하는 시간 공백을 구현한다. 세션 인식 라우터는 캐시 효율적 처리를 위해 프로그램과 서빙 인스턴스 간의 친화도를 유지하며, KV 잔류 모델은 메모리 계층 간 KV 캐시의 배치와 잔류 상태를 추적한다. 이를 통해 실제 서빙 배포 환경과 다양한 하드웨어 구성에서 주요 성능 지표를 실제 시스템 대비 오차 6% 이내로 재현하면서도, 전체 실행을 일반 CPU에서만 처리한다고 연구진은 밝혔다.
현재 LLM 에이전트 서빙 연구에서는 스케줄링·KV 캐시 관리·라우팅 등 다양한 정책 조합을 실험하기 위해 전용 가속기를 반복 투입해야 하는 비용 문제가 있다. AGENTSERVESIM은 이러한 탐색 과정을 값비싼 가속기 없이 재현 가능하고 통제된 환경에서 수행할 수 있게 해, AI 에이전트 서빙 인프라 설계의 진입 장벽을 낮출 것으로 기대된다. LLM 에이전트가 기업 업무 자동화의 핵심 인프라로 자리 잡아 가는 상황에서, 서빙 정책 평가 비용의 감소는 실용적인 배포 최적화 연구를 가속화하는 데 기여할 전망이다.














