투기적 디코딩(speculative decoding)은 LLM(대규모 언어 모델)의 생성 속도를 높이는 기법으로, 여러 토큰 후보를 미리 초안으로 만든 뒤 타깃 모델이 단 한 번의 순전파로 이를 일괄 검증하는 방식이다. 연구팀은 기존 재사용 기반 방법에서 두 가지 한계를 발견했다. 어휘 표면 형태에만 기댄 검색은 표현 방식이 달라지면 재사용 가능한 구간을 놓치고, 하나의 텍스트 구간을 그대로 복사하는 결정론적 방식은 문맥이 후속 내용을 명확히 결정하지 않을 때 취약하다는 것이다.
논문이 제안하는 AdaPLD는 별도의 학습 단계나 보조 모델 없이 검색과 초안 구성 모두를 적응적으로 개선한다. 어휘 매칭의 정밀도는 유지하면서, 어휘 일치에 실패할 경우 의미 유사도를 활용해 재사용 기회를 추가로 확보한다. 또한 단일 구간을 복사하는 대신 여러 분기 가설을 동시에 구성해 후속 내용의 불확실성에 대응한다. 논문에 따르면 이 접근법은 다양한 벤치마크에서 타깃 모델의 순전파 횟수를 줄이고 최대 3.10배의 디코딩 속도 향상을 달성했다.


추론 비용은 AI 서비스 확산의 주요 병목 중 하나다. 투기적 디코딩처럼 출력 품질을 유지하면서 연산 횟수를 줄이는 접근은 GPU 자원을 더 효율적으로 활용하게 해주며, 특히 대규모 서비스 환경에서 처리량과 응답 지연을 동시에 개선할 수 있다. AdaPLD처럼 학습 불필요(training-free) 방식은 기존 모델에 바로 적용할 수 있어 실제 배포 환경에서의 활용 가능성이 높다는 평가를 받는다.
이 연구는 어휘 기반 정밀도와 의미 기반 재현율을 조합해 재사용 기반 투기적 디코딩의 적용 범위를 넓혔다는 점에서 의미가 있다. 해당 논문은 arXiv에 게재됐으며 현재 동료 검토 전 단계다.














