블록 검증으로 확산 모델 추론 속도 최대 6.3% 향상

대규모 언어 모델(LLM)의 추론 속도를 높이는 투기적 디코딩(speculative decoding) 기법을 확산 모델(diffusion model)에 적용하는 것은 기술적으로 쉽지 않다. 연속 공간에서 잔차 분포를 효율적으로 샘플링하는 것이 이산(discrete) 공간과 달리 단순하지 않기 때문이다. 새 연구는 이 문제를 해결하는 방식을 제안하고, 추가 학습 없이 추론 속도를 높이는 결과를 보고했다.

연구팀은 LLM의 투기적 샘플링 메커니즘을 확산 모델에 그대로 구현하는 새로운 방식을 개발했다. 핵심은 LLM에서 가져온 블록 검증(block verification) 기법을 확산 모델에 적용했다는 점이다. 블록 검증은 여러 토큰을 한꺼번에 검증함으로써 초안(draft) 수락률을 이론적으로 높일 수 있다고 연구팀은 밝혔다. 또한 별도 훈련이 필요 없는 자기 투기적(self-speculative) 방식인 ‘프리 드래프터(Free Drafter)’ 방법론을 공식화하고 분석했다.

A field of colorful trees in the middle of a forest — 사진: Maxim Berg / Unsplash

실험에서 프리 드래프터에 블록 검증을 결합한 결과, 기존 투기적 방법 대비 최대 6.3%의 속도 향상을 달성했다. 병렬 검증 과정 외에 추가 오버헤드는 미미하며, 별도 모델 학습이 불필요하다는 점도 실용성을 높인다. 기존 연구들이 계산 비용이 높은 샘플링 기법이나 대안 방식에 의존했던 것과 달리, 이번 연구는 원래의 투기적 샘플링 메커니즘을 충실히 구현한다는 차별점이 있다.

확산 모델 기반 이미지·음성·영상 생성 시스템의 실시간성이 갈수록 중요해지는 가운데, 추가 학습 없이 속도를 높일 수 있는 방법론에 대한 관심은 계속 높아지고 있다. 이번 연구가 제안하는 블록 검증 적용 방식은 기존 투기적 확산 파이프라인에 비교적 쉽게 통합될 수 있어 실용적 활용 가능성이 주목된다.