트랜스포머 QKV 중 두 개 공유해도 성능 유지, KV 캐시 87% 절감 가능

트랜스포머(Transformer) 아키텍처의 핵심 구성 요소인 쿼리(Q)·키(K)·밸류(V) 세 투영(projection) 가운데 일부를 공유하거나 통합해도 성능이 유지되거나 오히려 나아질 수 있다는 체계적 연구 결과가 발표됐다. 연구진은 세 가지 투영 공유 방식, 즉 키-밸류를 공유하는 Q-K=V, 쿼리-키를 공유하는 Q=K-V, 그리고 세 개를 모두 통합하는 Q=K=V를 설정하고 합성 과제, 비전 과제(MNIST·CIFAR·TinyImageNet·이상 탐지), 언어 모델링에 걸쳐 광범위한 실험을 수행했다.

언어 모델링에서 주목할 결과가 나왔다. 3억 개 및 12억 개 파라미터 모델을 100억 토큰으로 학습한 실험에서 Q-K=V 방식은 KV 캐시를 50% 줄이면서 복잡도(perplexity) 저하가 3.1%에 그쳤다. 여기에 그룹 쿼리 어텐션(GQA-4)을 결합하면 캐시를 87.5%, 멀티 쿼리 어텐션(MQA)을 결합하면 96.9%까지 줄일 수 있어 엣지 디바이스 배포에 실질적인 이점을 제공한다고 연구진은 밝혔다. Q=K-V 방식은 어텐션의 방향성을 깨뜨려 효과가 나쁘지만, Q-K=V에서는 키와 밸류가 유사한 표현 공간에 위치하고 어텐션이 저차원 구조에서 작동하기 때문에 품질을 유지할 수 있다는 이유도 제시했다.

이 연구가 주목받는 이유는 투영 공유가 GQA·MQA 같은 기존 헤드 공유 기법과 상호보완적으로 적용 가능하다는 점 때문이다. 기존 최적화 방식에 투영 공유를 더하면 추론 메모리를 대폭 줄일 수 있어 스마트폰·임베디드 기기 같은 자원이 제한된 환경에서의 배포 가능성이 높아진다. 연구진은 투영 공유를 어텐션 내 가중치 결합(weight tying)의 미탐구 사례로 규정하며, 정량적 추론 메모리 절감 효과를 갖는 실용적 최적화 방향으로 체계화했다. 코드는 공개 저장소를 통해 확인할 수 있다.