장기 언어 에이전트의 메모리 보존 문제, 제약 최적화로 접근한 OSL-MR 제안

장기 과업을 수행하는 언어 에이전트는 관찰 기록, 추론 흔적, 검색된 사실 등이 누적되면서 유한한 컨텍스트 창을 초과하는 문제에 직면한다. 2026년 6월 9일 arXiv에 게재된 논문은 이 메모리 보존 문제를 단순한 휴리스틱 점수나 검색 최적화가 아닌 제약 조건이 있는 확률적 최적화 문제로 공식 정의하고, 이를 해결하기 위한 OSL-MR(Observability-Safe Learning for Memory Retention) 프레임워크를 제안한다.

기존 메모리 시스템들은 대부분 보존 여부를 국소적 결정 문제로 다루며 장기적 결과를 명시적으로 모델링하지 않는다는 한계가 있다. OSL-MR은 예산 실행 가능성, 증거 유용성, 그리고 미스 패널티·재획득 지연·낡은 정보 위험 같은 지연 비용을 함께 고려한다. 핵심 설계 원칙은 온라인에서 관측 가능한 특징과 오프라인에서만 확보할 수 있는 지도 신호를 엄격히 분리하는 OAS(Observability-Aware Separation)를 적용하는 것이다. 프레임워크는 실현된 증거 지도 신호로 훈련된 증거 학습기와, 배포 가능한 온라인 안전 기준선이자 구조화된 귀납적 사전으로도 작동하는 혼합 점수(Mixed-Score) 휴리스틱을 결합한다.

실험 결과 OSL-MR은 LOCOMO와 LongMemEval 두 벤치마크에서 최신성 기반 방법, 제너레이티브 에이전트 방식의 점수 체계, 기타 휴리스틱 기준선을 메모리 예산이 빡빡한 상황에서도 일관되게 앞서는 성능을 보였다. 혼합 점수 사전은 재현율을 유지하면서 정밀도를 추가로 향상시켰으며, 광범위한 비용 구성에 걸쳐 강건성이 확인됐다. 이 연구는 에이전트가 실제 운영 환경에서 동일한 관측 가능성 제약을 지키면서도 쿼리 조건부 증거 가치를 직접 학습할 수 있음을 보여준다.

자율적 언어 에이전트가 다단계 장기 과업을 수행하는 사례가 늘어나면서, 메모리 관리의 효율성은 에이전트 성능의 핵심 병목 요인으로 부상하고 있다. 제약 최적화 관점에서 메모리 보존을 다루는 이번 접근법은 실용적 에이전트 시스템 설계에 새로운 방향을 제시한다는 점에서 주목된다.