LLM 추론 속도 최대 3배 향상, 다중 계층 추측 디코딩 기법 제안

추측 디코딩은 경량 초안 생성기가 후보 토큰을 생성하고 대형 검증 모델이 병렬로 이를 검증하는 방식으로 LLM 추론 비용을 낮춘다. 그러나 기존 초안-검증 방식은 토큰을 수락하거나 전부 재계산하는 이진 결정만 허용한다. 연구팀은 거부된 토큰 상당수가 전체 검증 모델이 아닌 더 가벼운 서브모델로도 올바르게 검증될 수 있다는 점에 착안해 다중 계층 프레임워크 VIA-SD를 제안했다.

VIA-SD는 모델 내부 라우팅을 통해 전체 검증 모델에서 파생된 슬림 서브모델을 도입한다. 초안 토큰은 신뢰도에 따라 계층적으로 처리된다. 신뢰도가 높은 경우 직접 수락하고, 중간 수준이면 슬림 검증기가 재생성하며, 불확실한 경우에만 전체 모델 검증을 수행한다. 이 방식으로 비용이 큰 대형 모델 호출을 줄인다.

네 가지 대표 과제와 다양한 모델 패밀리에서 VIA-SD는 거부율을 0.10에서 0.22 낮추고, 강력한 추측 디코딩 기준선 대비 10~20% 속도 향상을 달성했다. 비드래프팅 디코딩 대비로는 2.5~3배의 가속이 확인됐다. 기존 추측 디코딩 프레임워크의 훈련 절차를 변경하지 않아도 호환되며, 연구팀은 다중 계층 추측 디코딩이 확장 가능하고 효율적인 LLM 추론의 일반적인 패러다임이 될 수 있다고 밝혔다.

대규모 언어 모델의 응답 속도와 운영 비용은 서비스 사업자에게 직접적인 부담으로 작용한다. 추측 디코딩은 작은 모델이 먼저 답안을 빠르게 써 내려가고 큰 모델이 이를 검증하는 방식으로 속도를 높여 왔지만, 검증 단계가 수락 아니면 전면 재계산이라는 이분법에 갇혀 있었다는 점이 한계로 지적돼 왔다. 거부된 토큰 가운데 상당수를 더 가벼운 검증으로 처리할 수 있다는 이번 접근은, 검증 자원을 토큰의 난이도에 맞춰 배분한다는 발상에 가깝다. 기존 추측 디코딩 체계를 그대로 두고 적용할 수 있다는 호환성은 실제 도입 문턱을 낮추는 요소다. 다만 모델 계열과 과제에 따라 효과 편차가 있을 수 있어, 폭넓은 환경에서의 검증이 뒤따라야 한다.