엔비디아 블랙웰, MLPerf Training 6.0 전 항목 1위…GB300이 GB200 대비 1.6배 빠른 훈련 속도

엔비디아 블랙웰 플랫폼이 AI 업계의 표준 성능 지표인 MLPerf Training 6.0에서 7개 전 항목을 석권했다. 이번 라운드에서 유일하게 모든 벤치마크에 결과를 제출한 플랫폼이 됐으며, 각 항목에서 최단 학습 시간을 기록했다. MLPerf Training 6.0에는 MoE(전문가 혼합) 아키텍처의 부상을 반영해 DeepSeek-V3 671B와 GPT-OSS-20B 두 가지 MoE 사전훈련 워크로드가 새로 추가됐다.

하드웨어 성능 면에서 GB300 NVL72 시스템은 같은 규모의 GB200 NVL72 대비 최대 1.6배 빠른 학습 속도를 달성했다. NVFP4 방식의 저정밀도 학습 지원, 확장된 메모리 용량, 높아진 전력 상한이 주요 성능 향상 요인이다. 엔비디아는 이번 라운드에서 GB200 NVL72와 GB300 NVL72 랙 단위 시스템 모두에 결과를 제출했으며, 랙 내 72개 GPU는 5세대 NVLink 스위치로 연결돼 하나의 통합 컴퓨팅·메모리 풀로 작동한다. 대규모 훈련에서 MoE 아키텍처의 핵심 과제인 토큰 라우팅(all-to-all 통신)에서도 NVLink의 대역폭 우위가 성능을 뒷받침했다.

최대 규모 클러스터 시연에서도 기록을 세웠다. DeepSeek-V3 671B 워크로드에서 GB200 NVL72 시스템 8,192개 GPU를 활용한 결과를 제출해 MLPerf Training 사상 최대 규모의 블랙웰 클러스터 운영을 입증했다. 마이크로소프트 애저(Microsoft Azure)는 8,192개 GPU에서 Llama 3.1 405B 학습을 7.07분 만에 완료했고, CoreWeave는 GB300 NVL72 8,192개 GPU에서 DeepSeek-V3 671B를 2.02분 만에 목표 정확도에 도달시켜 해당 벤치마크 최단 시간을 기록했다. 에코시스템 파트너로는 마이크로소프트, 구글 클라우드, CoreWeave를 비롯해 총 19개 기관이 참여했다.

신뢰성 측면에서 엔비디아는 GPU 출하 전 30단계 이상의 제조 검사와 Reliability, Availability and Serviceability(RAS) 엔진을 통한 실시간 칩 모니터링, 결함 자동 우회 기능을 갖췄다. NVRx(NVIDIA Resiliency Extension)는 장애 발생 시 전체 작업을 재시작하는 대신 최근 체크포인트에서 즉시 재개하는 방식으로 손실 시간을 최소화한다. 구글 클라우드에서는 Thinking Machines Lab이 GB300 NVL72를 통해 이전 세대 GPU 대비 훈련 및 서빙 속도를 2배 향상시켰으며, Nebius AI 클라우드에서는 Higgsfield가 모델 훈련 시간을 30% 단축하고 하루 600만 건 이상의 AI 콘텐츠를 생성하는 플랫폼을 운영 중이다.