컨텍스트 줄일수록 에이전트 성능 오른다, GPT-5 실험으로 입증

기업 워크플로우에 배포된 LLM(대규모 언어 모델) 에이전트는 방대한 도구 응답 때문에 컨텍스트 초과, 오래된 상태 오류, 높은 추론 비용이라는 공통 문제에 시달린다. arXiv에 공개된 이번 연구는 마이크로소프트 다이나믹스 365(Microsoft Dynamics 365)의 출장 경비 항목화 자동화 시나리오를 통해 컨텍스트 관리 전략이 에이전트 성능에 미치는 영향을 실험으로 분석했다. 실험에는 MCP(모델 컨텍스트 프로토콜) 도구가 활용됐다.

연구진은 50건의 호텔 경비 벤치마크에서 GPT-5를 대상으로 네 가지 구성을 비교했다. 사용자 모델 없이 전체 대화 이력을 유지한 설정은 완전 항목화 비율이 71.0%였으나 147만여 토큰과 약 14.56시간을 소비했다. 마지막 5건의 도구 호출·응답 쌍으로 이력을 잘라낸 설정은 완료율이 79.0%로 올라가면서 토큰 사용량이 약 53만 5천 개, 실행 시간은 5.39시간으로 크게 줄었다. 여기에 자동 요약을 추가한 설정에서는 완료율 91.6%, 평균 금액 항목화 비율 99.64%로 가장 좋은 결과가 나왔고 토큰은 약 55만 3천 개, 시간은 5.79시간이었다.

사용자 모델만 적용하고 이력을 전혀 보존하지 않은 기저 설정은 완료율이 8.0%에 그쳐 컨텍스트 관리의 중요성을 뚜렷이 보여줬다. 연구진은 클로드 소네트(Claude Sonnet) 4.5로도 교차 검증을 수행해 결론의 일반성을 확인했다. 이번 연구는 엔터프라이즈 도구 사용 워크플로우에서 최근 도구 상호작용의 선택적 보존과 간결한 요약이 전체 이력 유지보다 신뢰성과 효율성 모두를 높인다는 실증적 근거를 제시했다.

기업 환경에서 LLM 에이전트를 실제 배포할 때 컨텍스트 설계가 성능과 비용을 동시에 좌우하는 핵심 변수임을 이번 연구가 보여줬다. 모델 자체의 성능뿐 아니라 컨텍스트를 어떻게 구조화하느냐가 에이전트 신뢰성을 결정한다는 점은 실무 적용을 고려하는 기업과 개발자 모두에게 시사하는 바가 크다.