리즌앨록, 추론 모델 KV 캐시 병목 해소하는 계층적 예산 할당 제안

대규모 언어 모델(LLM)의 긴 사고 연쇄(CoT) 추론 과정에서 KV 캐시(Key-Value Cache)가 급격히 커져 추론이 느려지는 문제를 해결하는 훈련 불필요 프레임워크 리즌앨록(ReasonAlloc)이 arXiv에 발표됐다. 기존 디코딩 단계 압축 방식이 모든 레이어와 헤드에 동일한 예산을 배분하는 한계를 넘어 계층별·헤드별로 자원을 유동 배분하는 접근법을 채택했다.

리즌앨록은 두 수준의 계층적 예산 할당으로 작동한다. 오프라인 단계에서는 레이어별 사전 배분 전략이 ‘추론 파동(Reasoning Wave)’이라 명명된 아키텍처 고유의 수요 패턴을 반영해 예산을 나눈다. 온라인 단계에서는 헤드별 전략이 디코딩 중 실시간 유용도를 바탕으로 정보가 집중된 헤드에 자원을 재분배한다. 두 전략이 결합돼 자기회귀 추론의 단계별 문맥 요구에 동적으로 대응한다.

수학 추론 벤치마크 MATH-500과 AIME 2024에서 딥시크-R1-디스틸-라마-8B(DeepSeek-R1-Distill-Llama-8B), 딥시크-R1-디스틸-큐원-14B(DeepSeek-R1-Distill-Qwen-14B), 에이스리즌-14B(AceReason-14B) 모델로 평가한 결과, 리즌앨록은 균일 예산 R-KV, 스냅KV(SnapKV), 피라미드-RKV(Pyramid-RKV)를 모두 앞섰다. 예산 규모가 128~512 토큰으로 작을 때 성능 격차가 가장 두드러졌다. 리즌앨록은 기존 토큰 제거 정책과 플러그인 방식으로 결합할 수 있으며 추론 시간 오버헤드는 미미한 수준이다.

LLM 추론 비용이 높아지면서 추론 단계에서 KV 캐시를 효율적으로 관리하는 기술에 대한 관심이 커지고 있다. 리즌앨록은 별도 재훈련 없이 기존 모델에 바로 적용할 수 있어 실용성이 높다는 평가를 받는다. 특히 예산이 제한된 엣지 환경이나 비용 민감형 서비스에서 긴 추론 체인을 다루는 데 활용될 것으로 보인다.