대규모 언어 모델(LLM) 추론에서 KV 캐시(key-value cache)가 컨텍스트 길이에 비례해 증가해 메모리 병목이 심화되는 가운데, 인코더-디코더 방식의 종단간(end-to-end) 컨텍스트 압축 모델이 제안됐다. 기존 KV 캐시 압축 기법들이 품질 저하나 과도한 연산 시간 문제를 안고 있는 반면, 인코더-디코더 압축기는 긴 토큰 시퀀스를 짧은 잠재 임베딩으로 변환해 디코더가 소비하는 원리적 대안이다. 그러나 기존 접근은 정확도-효율 프론티어에서 KV 캐시 압축에 미치지 못했다.
연구진은 아키텍처 탐색(architecture search)을 통해 인코더-디코더 압축기 설계 원칙을 도출하고, 0.6B 인코더와 4B 디코더로 구성된 모델군을 350B 토큰 이상으로 지속적 사전 학습(continual pre-training)했다. 압축 비율은 1:4, 1:8, 1:16 세 가지로 훈련됐다. 이 모델군을 잠재 컨텍스트 언어 모델(LCLM, Latent Context Language Models)이라 명명했으며, 범용 과제 성능·압축 속도·최대 메모리 사용량을 아우르는 파레토 프론티어를 개선하는 것으로 나타났다.

LCLM은 장기 에이전트 워크플로에서도 효용이 확인됐다. 에이전트가 압축된 긴 컨텍스트를 훑으면서 필요한 구간을 선택적으로 전개(expand)하는 구조를 지원해, 긴 문서를 다루는 에이전트의 처리 효율을 높인다. 또한 현행 생산 추론 엔진과의 호환성 문제를 해결하고 목표 모델의 컨텍스트 윈도 내에 입력이 맞아야 한다는 제약도 완화했다. LLM 서빙 비용과 지연 시간이 산업 전반의 핵심 과제로 부상한 상황에서, 이 연구는 압축 기반 추론 효율화의 실현 가능성을 높이는 방향을 제시한다.














