NVIDIA, 확산 언어 모델 Nemotron-Labs 공개 — 최대 6.4배 고속 생성

NVIDIA가 허깅페이스 블로그를 통해 새로운 확산 언어 모델(DLM, Diffusion Language Model) 패밀리인 Nemotron-Labs Diffusion을 공개했다. 이 모델은 기존 LLM(대규모 언어 모델)이 채택하는 자기회귀(AR, Autoregressive) 방식, 즉 토큰을 하나씩 순차 생성하는 방식 대신, 여러 토큰을 병렬로 생성하며 반복 정제하는 확산 방식으로 작동한다. NVIDIA는 자가 추측(Self-Speculation) 모드 적용 시 기존 자기회귀 대비 포워드 패스당 토큰 처리량(TPF)이 최대 6.4배에 달한다고 밝혔다.

Nemotron-Labs Diffusion은 텍스트 모델 3종(3B, 8B, 14B 파라미터)과 비전-언어 모델 8B 등 총 4개 변형으로 구성되며, 각각 베이스 및 인스트럭션 튜닝 버전을 함께 제공한다. 단일 모델 내에서 자기회귀·확산·자가 추측 세 가지 생성 모드를 선택할 수 있어, 기존 자기회귀 파이프라인과의 하위 호환성도 유지된다. B200 GPU 기준 실제 추론 속도는 초당 약 865 토큰으로 측정됐으며, 성능 면에서도 Qwen3 8B 모델 대비 1.2% 개선된 정확도를 보였다. 모든 모델은 상업적 활용이 가능한 NVIDIA Nemotron 오픈 모델 라이선스 하에 공개됐다.

Scrabble tiles spelling 'Token Launch' on a vibrant green background. — 사진: Markus Winkler / Pexels

확산 언어 모델의 핵심 이점은 이미 생성된 토큰을 수정할 수 있다는 점이다. 자기회귀 모델은 앞서 생성한 토큰을 되돌릴 수 없어 오류가 누적될 수 있는 반면, 확산 모델은 신뢰도 임계값에 따라 블록 단위로 반복 정제하는 방식을 통해 오류 전파를 줄인다. 또한 현대 GPU의 병렬 연산 능력을 더 효율적으로 활용할 수 있어 하드웨어 자원 대비 처리량이 높다. NVIDIA는 현재 SGLang 기반 배포 지원도 준비 중이며, Megatron-Bridge를 통한 학습 코드도 깃허브에 공개됐다.

확산 방식의 언어 모델은 그간 이미지 생성 분야에서 주목받아왔으나, 텍스트 생성에서는 품질 격차로 인해 자기회귀 모델에 자리를 내줬다. NVIDIA의 이번 공개는 텍스트 확산 모델이 충분한 실용 수준에 도달했음을 보여주는 사례로, 추론 비용 절감이 핵심 과제로 부상한 시장 상황에서 속도와 성능을 동시에 확보한 대안으로 평가받을 전망이다.