RAG 서빙 속도 높이는 QCFuse, 압축 뷰 기반 캐시 융합 기법 제안

검색 증강 생성(RAG) 시스템의 추론 비용을 줄이기 위한 새로운 캐시 융합 기법이 제안됐다. QCFuse(Query-Aware Cache Fusion via Compressed View)는 사용자 쿼리에 맞춰 키-밸류(KV) 캐시를 선택적으로 재활용하는 방식으로, 기존 방식 대비 전처리 단계 속도를 평균 1.7배 높이면서도 전체 프리필(full-prefill) 수준의 답변 품질을 유지한다고 연구팀이 밝혔다.

RAG는 외부 문서를 검색해 LLM(대규모 언어 모델)의 답변 정확도를 높이는 기술로, 프리필(prefill) 단계에서 검색된 문서들을 처리하는 비용이 전체 서빙 비용의 상당 부분을 차지한다. 이를 줄이기 위해 미리 계산된 KV 캐시를 재사용하는 캐시 융합 기술이 활용되는데, 기존 방식들은 품질과 효율성 사이에서 절충점을 찾지 못하는 한계가 있었다. 쿼리를 고려하지 않는 방식은 관련 정보를 놓칠 수 있고, 쿼리를 완전히 반영하는 방식은 모든 레이어의 정보를 먼저 확인해야 해 처리 파이프라인을 지연시켰다.

Detailed view of a custom gaming PC's interior showcasing components like RTX GPU and advanced cooling system. — 사진: Andrey Matveev / Pexels

QCFuse는 이 문제를 ‘압축 뷰’ 개념으로 돌파한다. 청크 앵커 쿼리 프로빙(chunk-anchor query probing) 기술로 각 문서 청크의 압축된 앵커에 사용자 쿼리 상태를 조건화하고, 핵심 레이어 프로파일링(critical-layer profiling)으로 전체 레이어 검사 없이도 재계산 대상 토큰을 특정한다. 연구팀은 이 방법을 오픈소스 LLM 추론 프레임워크인 SGLang에 구현하고, 오픈 웨이트 LLM 4종과 6개 데이터셋에서 평가를 수행했다. 결과적으로 QCFuse는 품질이 동등한 조건에서 가장 강력한 품질 보존 기준선인 ProphetKV 대비 1.5배, 전체 프리필 대비 평균 1.7배의 프리필 속도 향상을 달성했다.

RAG 기반 AI 서비스가 기업 환경에 빠르게 확산되면서 서빙 비용 절감은 핵심 과제로 부상하고 있다. 검색된 문서를 처리하는 프리필 비용이 전체 추론 시간을 좌우하는 만큼, 품질 손실 없이 이를 단축하는 기술의 상업적 가치는 크다. QCFuse는 쿼리 인식과 효율성을 동시에 달성하는 압축 뷰 방식으로 해당 과제에 실질적인 해법을 제시했다는 점에서 주목받고 있다.