엔비디아 GB300 NVL72, 에이전트 AI 벤치마크서 전 세대 대비 20배 효율

아티피셜 애널리시스(Artificial Analysis)가 업계 최초의 에이전트 AI 추론 벤치마크인 AA-에이전트퍼프(AA-AgentPerf)를 공개하고 첫 번째 결과를 발표했다. 이 벤치마크에서 엔비디아(NVIDIA) GB300 NVL72가 전 세대 H200 대비 메가와트당 동시 에이전트 처리량 20배를 기록하며 선두를 차지했다. AA-에이전트퍼프는 사전 정의된 SLO(서비스 수준 목표) 아래에서 추론 시스템이 동시에 지원할 수 있는 AI 에이전트 수를 측정하며, 결과를 가속기당·메가와트당으로 정규화해 서로 다른 하드웨어 구성 간 비교를 가능하게 한다.

이 벤치마크가 기존 AI 추론 측정과 구별되는 핵심은 에이전트 작업 특유의 복잡성을 반영한다는 점이다. 일반 AI 추론은 단일 LLM(대규모 언어 모델) 호출에 그치지만, 에이전트 작업은 수십에서 수백 차례의 LLM 호출이 연쇄되고, 각 호출 사이에 코드 컴파일·데이터베이스 검색·웹 탐색 등의 도구 호출이 끼어든다. AA-에이전트퍼프는 12개 이상의 프로그래밍 언어로 구성된 공개 코드 저장소의 실제 이슈를 해결하는 에이전트 궤적을 기반으로 하며, 입력·출력 시퀀스 길이는 5000에서 131000 토큰으로 평균 약 27000 토큰이다. 첫 번째 테스트 모델은 오픈 가중치 혼합 전문가(MoE) 구조인 딥시크 V4 프로(DeepSeek-V4-Pro)이며, SLO는 출력 속도와 첫 토큰 응답 시간(TTFT)으로 정의된다.

사진: Stephen Leonardi / Pexels

GB300 NVL72의 성능 우위는 하드웨어와 소프트웨어의 긴밀한 통합에서 나온다. 72개 GPU를 단일 랙 단위 NVLink 패브릭으로 연결해 KV 캐시와 매개변수를 빠르게 공유하며, TensorRT LLM이 입력 처리와 출력 생성을 분리해 각각을 독립적으로 최적화한다. MXFP4/MXFP8 커널과 MoE 오버랩 최적화로 NVLink 통신과 텐서 코어 연산이 동시에 진행된다. 메가와트당 6만 1400개의 동시 에이전트를 지원하는 GB300 NVL72는 H200의 2600개와 극명한 차이를 보인다. 엔비디아는 차세대 플랫폼 베라 루빈(Vera Rubin)이 50페타플롭스(PFLOPs) 규모의 NVFP4 연산과 베라(Vera) CPU를 결합해 에이전트 워크플로의 도구 호출 성능과 전체 비용 효율을 추가로 끌어올릴 것으로 전망했다.