• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

NVIDIA, 확산 언어 모델 Nemotron-Labs 공개 — 최대 6.4배 고속 생성

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 19시 35분
Home AI 모델·연구
Share on FacebookShare on Twitter

NVIDIA가 허깅페이스 블로그를 통해 새로운 확산 언어 모델(DLM, Diffusion Language Model) 패밀리인 Nemotron-Labs Diffusion을 공개했다. 이 모델은 기존 LLM(대규모 언어 모델)이 채택하는 자기회귀(AR, Autoregressive) 방식, 즉 토큰을 하나씩 순차 생성하는 방식 대신, 여러 토큰을 병렬로 생성하며 반복 정제하는 확산 방식으로 작동한다. NVIDIA는 자가 추측(Self-Speculation) 모드 적용 시 기존 자기회귀 대비 포워드 패스당 토큰 처리량(TPF)이 최대 6.4배에 달한다고 밝혔다.

Nemotron-Labs Diffusion은 텍스트 모델 3종(3B, 8B, 14B 파라미터)과 비전-언어 모델 8B 등 총 4개 변형으로 구성되며, 각각 베이스 및 인스트럭션 튜닝 버전을 함께 제공한다. 단일 모델 내에서 자기회귀·확산·자가 추측 세 가지 생성 모드를 선택할 수 있어, 기존 자기회귀 파이프라인과의 하위 호환성도 유지된다. B200 GPU 기준 실제 추론 속도는 초당 약 865 토큰으로 측정됐으며, 성능 면에서도 Qwen3 8B 모델 대비 1.2% 개선된 정확도를 보였다. 모든 모델은 상업적 활용이 가능한 NVIDIA Nemotron 오픈 모델 라이선스 하에 공개됐다.

Scrabble tiles spelling 'Token Launch' on a vibrant green background.
사진: Markus Winkler / Pexels

확산 언어 모델의 핵심 이점은 이미 생성된 토큰을 수정할 수 있다는 점이다. 자기회귀 모델은 앞서 생성한 토큰을 되돌릴 수 없어 오류가 누적될 수 있는 반면, 확산 모델은 신뢰도 임계값에 따라 블록 단위로 반복 정제하는 방식을 통해 오류 전파를 줄인다. 또한 현대 GPU의 병렬 연산 능력을 더 효율적으로 활용할 수 있어 하드웨어 자원 대비 처리량이 높다. NVIDIA는 현재 SGLang 기반 배포 지원도 준비 중이며, Megatron-Bridge를 통한 학습 코드도 깃허브에 공개됐다.

확산 방식의 언어 모델은 그간 이미지 생성 분야에서 주목받아왔으나, 텍스트 생성에서는 품질 격차로 인해 자기회귀 모델에 자리를 내줬다. NVIDIA의 이번 공개는 텍스트 확산 모델이 충분한 실용 수준에 도달했음을 보여주는 사례로, 추론 비용 절감이 핵심 과제로 부상한 시장 상황에서 속도와 성능을 동시에 확보한 대안으로 평가받을 전망이다.

Tags: LLMNemotronNVIDIA추론속도확산언어모델
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Building AI models that understand chemical principles

MIT 코너 콜리, 화학 원리 내장 AI로 신약 후보 발굴

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist Gemini GPU IPO LLM MCP NVIDIA OpenAI SynthID 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 메타 반도체 벤치마크 보안 생산성 스타트업 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

Abstract black and white graphic featuring a multimodal model pattern with various shapes.

구글 SynthID 워터마킹, OpenAI·엔비디아로 확산

2026년 06월 02일 08시 50분
Smartphone screen showing Google search in dark mode with the Google logo in the background.

구글, 25년 만에 검색창 개편… 멀티모달 대화로 전환

2026년 06월 02일 08시 28분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.