NVIDIA가 텍스트, 이미지, 영상, 음성을 단일 모델 루프 안에서 처리하는 멀티모달 AI 모델 ‘네모트론 3 나노 옴니(Nemotron 3 Nano Omni)’를 공개했다. 기존 에이전트 시스템은 시각, 음성, 텍스트 처리를 위해 별도 모델을 연결하는 구조가 일반적이어서 추론 단계가 늘어나고 오케스트레이션 복잡도가 높아지는 문제가 있었다. 네모트론 3 나노 옴니는 이러한 분절된 모델 체인을 단일 멀티모달 인식 루프로 대체하는 것을 목표로 설계됐다. 전체 파라미터는 300억 개이며 토큰당 활성 파라미터는 30억 개인 하이브리드 혼합 전문가(MoE) 아키텍처를 기반으로 한다.
NVIDIA 공식 블로그에 따르면 이 모델은 문서 지능 리더보드인 MMlongbench-Doc와 OCRBenchV2에서 동급 최고 정확도를 기록했으며, 영상 및 음성 이해 벤치마크에서도 선두권 성과를 냈다. 미디어 처리 성능을 측정하는 산업 공개 벤치마크 미디어퍼프(MediaPerf)에서는 비디오 수준 태깅 작업에서 가장 높은 처리량과 가장 낮은 추론 비용을 달성했다. 동일한 응답성 기준을 유지하면서 비디오 추론에서는 다른 오픈 옴니 모델 대비 최대 약 9.2배, 다문서 추론에서는 최대 약 7.4배의 시스템 처리량을 기록했다고 밝혔다.
모델 가중치, 학습 데이터셋, 레시피가 모두 공개된 완전 오픈 방식으로 배포된다. 앰페어(Ampere), 호퍼(Hopper), 블랙웰(Blackwell) GPU 아키텍처를 지원하며, FP8과 NVFP4 양자화를 통한 하드웨어 최적화 추론이 가능하다. 허깅페이스와 오픈라우터(OpenRouter)에서 이용할 수 있으며, vLLM, SGLang, NVIDIA TRT-LLM 등 주요 추론 엔진과 AWS, OCI 등 주요 클라우드 서비스 제공자도 지원한다. NVIDIA는 금융, 헬스케어, 과학적 발견, 미디어 엔터테인먼트 등 대규모 영상·음성 데이터를 처리하는 엔터프라이즈 환경에 특히 적합하다고 설명했다.














