엔비디아 네모트론 3 울트라 공개…장기 에이전트용 550B MoE 모델

엔비디아가 장기 에이전트 시스템을 겨냥한 오픈 모델 네모트론 3 울트라(Nemotron 3 Ultra)를 공개했다. 이 모델은 총 550B 파라미터의 혼합 전문가(MoE, Mixture-of-Experts) 구조를 채택하되 실행 시 활성화되는 파라미터는 55B에 불과해, 프론티어급 추론 능력을 효율적으로 제공한다는 것이 엔비디아의 설명이다.

네모트론 3 울트라는 다수의 에이전트가 계획 수립, 도구 호출, 하위 에이전트 위임 등을 반복하면서 토큰 수가 급격히 불어나는 멀티에이전트 워크플로우 문제를 해결하기 위해 설계됐다. 엔비디아에 따르면 이 모델은 BF16 대비 NVFP4 정밀도로 블랙웰 GPU에서 처리량을 최대 5배 향상시키며, SWE-벤치와 터미널 벤치 2.0 실험에서 동급 모델 대비 에이전트 작업 비용을 최대 30% 낮췄다. 에이전트 생산성 지표인 PinchBench에서는 91%를 기록했고, 지시 따르기 항목인 IFBench에서는 82%를 달성했다.

주요 기술적 특징으로는 Mamba-트랜스포머 하이브리드 아키텍처, 다중 토큰 예측(MTP), 잠재 전문가 라우팅 방식인 LatentMoE 등이 있다. 훈련 방식으로는 10개 이상의 도메인 전문 교사 모델로부터 동시에 학습하는 다중 교사 온폴리시 증류(MOPD) 기법을 도입했다. 사전 학습 기반 10조 토큰에 더해 2,120억 토큰이 추가됐으며, 여기에는 법률 데이터 40억 토큰과 갱신된 깃허브 코드 1,730억 토큰이 포함된다. 이번 출시와 함께 지도 학습용 샘플 1,000만 건, 강화학습 태스크 100만 건, 강화학습 환경 15개도 함께 공개됐다.

네모트론 3 울트라는 가중치, 데이터, 학습 레시피 전체가 리눅스 재단의 OpenMDW-1.1 라이선스로 완전히 공개된다. 허깅페이스에서 가중치를 내려받거나 엔비디아 NIM 마이크로서비스로 배포할 수 있으며, AWS 점프스타트, 구글 클라우드, 마이크로소프트 파운드리, CoreWeave 등 주요 클라우드 플랫폼에서도 지원된다. 아울러 콘텐츠 안전 분류 모델인 네모트론 3.5 콘텐츠 세이프티(4B 파라미터, 23개 안전 범주, 12개 언어)와 다국어 스트리밍 음성 인식 모델인 네모트론 3.5 ASR도 함께 출시됐다.