NVIDIA가 구글 딥마인드의 텍스트 확산 모델 DiffusionGemma에 대해 소비자용 GPU부터 엔터프라이즈 서버까지 전 하드웨어 라인업에 걸쳐 데이-제로(Day 0) 지원을 제공한다고 밝혔다. DiffusionGemma는 256개 토큰을 병렬 처리하는 확산 기반 방식으로 실시간 AI 애플리케이션의 레이턴시 병목을 해소하도록 설계됐다. 단일 NVIDIA H100 텐서 코어 GPU에서 초당 1,000개 이상, DGX Spark에서 초당 150개, DGX Station에서 가장 빠른 로컬 성능을 달성한다고 NVIDIA는 밝혔다.
NVIDIA가 지원하는 플랫폼 구성은 세 가지다. DGX Spark는 NVIDIA GB10 Grace Blackwell 슈퍼칩과 128GB 통합 메모리를 갖춘 개인용 AI 슈퍼컴퓨터로 로컬 AI 개발·자율 에이전트·연구 및 프로토타이핑에 최적화됐다. DGX Station은 GB300 Grace Blackwell Ultra 슈퍼칩과 748GB 코히어런트 메모리, 최대 20 PFLOPS의 FP4 연산 성능을 갖춘 데스크사이드 AI 슈퍼컴퓨터다. RTX·RTX PRO는 데스크톱 AI 앱과 윈도우 개발, 로컬 추론에 활용 가능하다. 모델은 BF16 체크포인트로 허깅페이스에서 배포되며, NVIDIA Model Optimizer를 통한 NVFP4 양자화 체크포인트도 제공된다. NVFP4는 4비트 부동소수점 형식으로 정확도 손실을 최소화하면서 연산 처리량을 높인다.
엔터프라이즈 배포를 위해서는 NVIDIA NIM(NIM 마이크로서비스)이 제공된다. NIM은 모델을 최적화된 컨테이너형 추론 마이크로서비스로 패키징해 온프레미스·클라우드·하이브리드 환경에 걸쳐 표준 OpenAI 호환 API로 제공한다. 파인튜닝은 NVIDIA NeMo AutoModel 라이브러리를 통해 지원되며, 허깅페이스 체크포인트에서 변환 없이 직접 모델을 파인튜닝할 수 있다. 개발자는 build.nvidia.com에서 NVIDIA Developer Program을 통해 GPU 가속 엔드포인트를 무료로 프로토타이핑에 활용할 수 있다.
NVIDIA는 DiffusionGemma 출시에 맞춰 vLLM, DGX Spark·Station 플레이북, NVIDIA NeMo 파인튜닝 가이드 등 개발자용 리소스를 함께 공개했다. 메모리 대역폭 병목을 컴퓨팅 병목으로 전환하는 확산 방식의 특성상, 단일 가속기 저·중규모 배치 환경에서 처리량 이점이 가장 두드러진다. NVIDIA는 이를 대화형 AI, 코파일럿, 에이전틱 워크플로우 같은 실시간 AI 애플리케이션의 응답성 개선과 서빙 비용 절감으로 연결하고 있다.














