엔비디아의 신규 오픈 AI 모델 Nemotron 3 Ultra가 미국산 오픈 모델 중 최고 성능 기록을 달성했다. 벤치마크 플랫폼 Artificial Analysis가 실시한 지능 순위에서 48점을 기록해 Google Gemma 4 31B(39점), Nemotron 3 Super(36점), gpt-oss-120b(33점)를 모두 제쳤다. 총 파라미터 규모는 약 5,500억 개이며, 특정 시점에 실제로 활성화되는 파라미터는 약 550억 개 수준으로, MoE(혼합 전문가) 구조를 채택해 효율적인 연산이 가능하다. 모델은 2026년 6월 4일 HuggingFace, OpenRouter 등 주요 플랫폼을 통해 정식 배포된다.
그러나 글로벌 오픈 모델 순위에서는 중국 Kimi K2.6(54점)이 Nemotron 3 Ultra를 6점 차로 앞선다. 비공개 최고 성능 모델인 Anthropic Opus 4.8은 61점으로 별도 그룹을 형성하고 있어, 오픈 모델과 클로즈드 모델 간 성능 격차도 여전히 존재한다. 추론 성능 외에 처리 속도 측면에서는 Nemotron 3 Ultra가 두드러진 강점을 보인다. 인퍼런스 서비스 DeepInfra에서 초당 300토큰 이상을 처리해, DeepSeek나 Moonshot 계열의 비슷한 규모 모델(50~100토큰/초)보다 세 배 이상 빠른 속도를 기록했다. Artificial Analysis는 성능과 속도라는 두 축에서 모두 경쟁력을 갖춘 ‘가장 매력적인 사분면’에 이 모델이 위치한다고 평가했다.

엔비디아는 GPU 칩 제조사로 시작했지만, Nemotron 시리즈를 통해 대형 언어 모델(LLM) 개발에도 본격적으로 뛰어들고 있다. 오픈소스 모델로 개발자 생태계를 구축하면서 자사 컴퓨팅 인프라 수요를 자연스럽게 유발하는 전략이다. Meta의 Llama, Mistral AI의 Mistral 시리즈와 경쟁하면서도 추론 속도라는 독자적 강점을 무기로 삼겠다는 의도가 읽힌다. 한편 미국과 중국 간 오픈 모델 성능 격차 논쟁은 현재 진행형이다. Nemotron 3 Ultra가 미국 최강 오픈 모델 타이틀을 가져왔지만, Kimi K2.6이 6점 더 높은 상황에서 중국 AI 연구소의 오픈 모델 경쟁력이 미국을 앞선다는 평가가 이어진다.
국내 AI 개발사와 기업 사용자들은 성능·속도·비용을 종합적으로 고려해 오픈 모델 채택 전략을 재점검할 필요가 있다. 특히 온프레미스 또는 프라이빗 클라우드 환경에서 대형 모델을 운영하려는 경우 추론 속도가 실질적인 사용자 경험에 직결되는 만큼, 성능 지표만이 아닌 실측 처리 속도를 비교 기준에 포함해야 한다는 시사점이 있다.


