장기 작업 LLM 에이전트를 위한 컨텍스트 관리 학습 방법 제안

다단계 복잡 작업을 처리하는 LLM(대규모 언어 모델) 에이전트의 컨텍스트 관리 문제를 학습 기반으로 해결하는 연구가 arXiv에 공개됐다. 연구팀이 제안한 방법은 AdaCoM(Adaptive Context Management)으로, 웹 검색이나 딥리서치처럼 여러 단계에 걸쳐 진행되는 장기 수평(long-horizon) 작업을 대상으로 한다. 이런 작업에서는 누적된 컨텍스트가 길어지면서 장문맥 성능 저하와 추론 실패가 발생하는데, AdaCoM은 이전 단계의 작업 제약과 진행 상황을 보존하면서 낡은 내용을 가지치기하는 방식으로 이를 완화한다.

기존 컨텍스트 관리 방법은 에이전트 자신이 컨텍스트를 제어하거나 요약 같은 고정 전략을 쓰도록 했지만, 이는 에이전트 본체를 다시 훈련해야 해 폐쇄형(closed-source) 에이전트에는 적용하기 어렵고 에이전트마다 필요한 전략이 다르다는 점을 놓친다. AdaCoM은 본체를 고정(frozen)한 채 외부 LLM을 별도로 두어, 유연한 수정 동작과 종단 간(end-to-end) 강화학습으로 해당 외부 LLM이 컨텍스트를 관리하도록 훈련한다. 웹 검색과 딥리서치 벤치마크에서 여러 에이전트에 적용한 결과, 작업 제약과 진행 상황을 유지하면서 불필요한 내용을 정리해 성능을 크게 끌어올렸다고 연구팀은 보고했다.

High-resolution image of colorful programming code highlighted on a computer screen. — 사진: Nemuel Sereti / Pexels

학습된 전략에서는 ‘충실성-신뢰성 트레이드오프(Fidelity-Reliability Trade-off)’가 드러났다. 기본 ReAct 성능이 높은 에이전트는 컨텍스트를 더 충실하게 보존할 때 이득을 보는 반면, 성능이 낮은 에이전트는 더 공격적으로 압축해야 안정적인 추론 범위 안에 머문다는 것이다. 전이 실험에서는 AdaCoM이 기본 ReAct 성능으로 측정한 역량이 비슷한 에이전트 사이에서 가장 효과적으로 일반화돼, 여러 에이전트 시스템에서 재사용 가능한 컨텍스트 관리자라는 실용적 경로를 시사한다고 논문은 밝혔다. 컨텍스트 창이 수십만에서 수백만 토큰으로 확대되는 흐름 속에서도, 장기 에이전트 작업에서 컨텍스트의 질적 관리가 독립적 연구 과제로 부상하고 있음을 보여주는 사례다.

국내 개발사와 연구팀이 장기 코딩 에이전트, 자동 보고서 생성, 복잡한 분석 파이프라인 등을 구축할 때 이 연구의 컨텍스트 관리 프레임워크는 직접적인 적용 가치를 갖는다. 에이전트 플랫폼을 개발 중인 기업이라면 작업 유형별로 최적화된 컨텍스트 선택 정책을 학습시키는 이 접근 방식을 참고해 시스템 효율을 높일 수 있다. 실제로 기업 업무 자동화 에이전트에서 비용과 응답 품질을 동시에 최적화하는 데 이 기법이 활용될 것으로 기대된다.