연구팀이 다중 턴 대화에서 증가하는 컨텍스트를 효율적으로 관리하는 새로운 압축 기법 C-DIC(Context-Driven Incremental Compression)를 제안하고 장기 대화 벤치마크에서의 성능을 입증했다. 현재 대화형 AI 에이전트는 매 턴마다 전체 대화 이력을 컨텍스트로 제공하기 때문에 대화가 길어질수록 중복 어텐션(attention) 연산과 인코딩 비용이 선형 이상으로 증가한다. 단순히 이전 대화를 잘라내거나 요약하는 기존 방식은 정보 손실과 오류 누적이라는 문제를 낳는다.
C-DIC는 대화를 상호 연관된 맥락 스레드(thread)의 연속으로 해석하고, 각 스레드에 대해 수정 가능한 압축 상태를 단일 소형 대화 메모리(dialogue memory)에 저장하는 방식으로 동작한다. 매 턴마다 경량화된 ‘검색·수정·되돌려쓰기(retrieve, revise, write-back)’ 루프를 실행해 이전 스레드의 오래된 메모리를 갱신하고 새로운 정보를 반영한다. 이를 통해 단순 압축기에서 흔히 나타나는 턴 간 메모리 공유 실패와 정보 누락을 방지한다. 또한 긴 대화에서 전체 이력에 대한 역전파 대신 잘린 시간에 대한 역전파(TBPTT, Truncated Backpropagation Through Time)를 다중 턴 설정에 맞게 변형해 적용함으로써 턴 간 의존성을 효율적으로 학습한다.
장기 대화 벤치마크에 대한 실험 결과, C-DIC는 기존 컨텍스트 압축 방식 대비 우수한 성능과 효율을 보였다. 특히 수백 턴에 걸친 대화에서 추론 지연(latency)과 혼란도(perplexity)가 안정적으로 유지되는 것이 두드러진 결과로 제시됐다.
LLM(대규모 언어 모델) 기반 에이전트와 챗봇이 장기 멀티턴 대화를 처리해야 하는 사례가 늘면서, 컨텍스트 길이 관리는 추론 비용과 품질을 함께 좌우하는 핵심 과제로 부상하고 있다. C-DIC는 전체 이력을 보존하는 방식 없이도 고품질 대화를 이어갈 수 있는 확장 가능한 경로를 제시하며, 장기 대화 응용 분야에서의 실용성이 기대된다.














