멀티턴 대화를 지원하는 대규모 언어 모델(LLM) 서빙 시스템에서 KV(Key-Value) 캐시는 대화가 길어질수록 선형으로 증가하며 GPU 메모리와 대역폭에 상당한 부담을 가한다. 비균일 KV 압축 기법은 각 캐시 항목의 개별 중요도를 고려해 정보 손실을 최소화하는 효과적인 접근으로 주목받았다. 그러나 이 기법을 실제 서빙 시스템에 적용하면 캐시 항목마다 크기가 달라지는 이질성(heterogeneity) 때문에 메모리 단편화, 스케줄링 복잡성, 커널 활용률 저하 등 여러 구조적 문제가 발생해 오히려 전체 시스템 효율이 떨어지는 역효과가 나타났다.
이 문제를 해결하기 위해 제안된 Tangram은 비균일 KV 캐시를 실용적으로 운용할 수 있도록 설계된 새로운 서빙 시스템이다. 세 가지 핵심 기법으로 비효율을 극복한다. 첫째, 결정론적 예산 할당(Deterministic Budget Allocation)은 각 어텐션 헤드의 고유 패턴을 바탕으로 정적 메모리 점유량을 미리 배정해 동적 스케줄링 오버헤드와 프리필(prefill) 지연을 완전히 제거한다. 둘째, 헤드 그룹 페이지(Head Group Page) 기법은 유사한 보존 요건을 가진 어텐션 헤드를 묶어 독립적인 벡터화 페이지 테이블로 관리함으로써 물리 메모리 회수율을 극대화한다. 셋째, 선행 부하 분산(Ahead-of-Time Load Balancing)은 정적 예산 프로파일을 활용해 런타임 오버헤드 없이 GPU 활용률을 균등하게 유지한다.
실험 결과 Tangram은 기존 기준 시스템 대비 최대 2.6배의 처리량 향상을 달성하면서도 모델 정확도는 완전히 유지한 것으로 보고됐다. 연구팀은 구현 코드를 깃허브(github.com/aiha-lab/TANGRAM)에 공개해 재현과 활용이 가능하도록 했다. 대화형 AI 서비스가 장문 멀티턴 세션을 처리하는 수요가 늘면서 KV 캐시 관리 효율은 서빙 비용과 응답 품질에 직결되는 핵심 과제로 떠올랐다. Tangram은 이론적으로 유망한 비균일 압축 방식을 실제 시스템에서 안정적으로 운용할 수 있음을 보여주는 성과로, LLM 서빙 인프라 최적화 연구의 실용적 진전으로 평가된다.














