확산 언어모델 장문 추론 속도, 9~28배 빠르게 만드는 기법 등장

확산 대규모 언어 모델(dLLM)의 장문 추론 속도를 크게 높이는 새로운 프레임워크가 제안됐다. 연구팀은 ‘Prefilling-dLLM’이라는 이름의 학습 없는 프리필-디코드 분리 기법을 발표하고, 8천~3만2천 토큰 문맥에서 기존 대비 최대 28배 속도 향상을 달성했다고 밝혔다. 확산 언어 모델은 자기회귀 모델과 달리 잡음에서 출발해 전체 시퀀스를 반복적으로 정제하는 방식이라, 병렬 생성이 가능하다는 장점이 있지만 장문 처리에서 재계산 비용이 급증하는 구조적 약점을 안고 있다.

기존 확산 언어 모델은 잡음 제거 과정마다 전체 앞선 문맥을 재인코딩해야 한다는 한계를 안고 있다. 이 재계산 비용은 문맥 길이가 길어질수록 제곱에 비례해 증가해, 장문 처리 시 실용성이 크게 떨어졌다. Prefilling-dLLM은 이 문제를 해결하기 위해 앞선 문맥을 N개 청크로 나눠 KV 표현을 한 번만 캐시에 저장하고, 디코딩 시에는 상위 K개 관련 청크만 선택적으로 참조하는 방식을 택했다. 희소한 프리필링이 밀집 어텐션을 능가할 수 있음을 보이며, 단계별 계산 복잡도를 전체 시퀀스 길이의 제곱이 아닌 디코드 길이의 제곱으로 낮췄다. 학습이 필요 없는 방식이라 기존 확산 언어 모델에 바로 적용할 수 있다는 점도 실용적 강점이다.

성능 평가는 장문 이해 벤치마크인 LongBench와 InfiniteBench에서 진행됐다. 그 결과 Prefilling-dLLM은 기존 확산 언어 모델 가속 방법 가운데 최고 수준의 품질을 달성했다. 청크 내 토큰 희소성을 병렬 처리하는 어텐션 커널을 적용하면 8K 문맥에서 9.1배, 32K 문맥에서 최대 28.0배의 처리 속도 향상을 얻었다. 연구팀은 또한 각 청크 앞에 시퀀스 시작 토큰을 주기적으로 배치하면 장문 처리에서 흔히 발생하는 ‘중간 정보 소실(lost-in-the-middle)’ 현상을 제거할 수 있다는 사실도 확인했다. 코드는 공개 저장소에서 제공된다.