NVIDIA, 에이전트 AI 추론 위한 Vera Rubin·Groq 3 LPX 통합 아키텍처 공개

엔비디아(NVIDIA)가 에이전트 AI(Agentic AI) 추론의 규모 확장 문제를 해결하기 위한 통합 플랫폼 아키텍처를 공식 기술 블로그를 통해 상세 공개했다. 핵심은 Vera Rubin NVL72 GPU 래크와 Groq 3 LPX(Large Processing Unit eXtended)를 역할에 따라 분담시키는 이기종 설계로, 1조 파라미터 규모 MoE(Mixture of Experts, 전문가 혼합) 모델 기준으로 사용자당 400 토큰/초를 달성하며 메가와트당 처리량은 GB200 NVL72 대비 최대 35배 높다고 밝혔다.

Vera Rubin NVL72는 래크 한 대에 3,600 PFLOPS의 NVFP4 연산 성능, 20.7TB의 HBM4(High Bandwidth Memory 4세대) 용량, 1.6PB/s의 메모리 대역폭을 갖춘다. 이 시스템은 에이전트 AI 추론에서 프리필(prefill)·긴 컨텍스트 디코드 어텐션·고동시 서빙을 담당한다. Groq 3 LPX는 LPU(Language Processing Unit) 한 개당 96개의 칩 간 링크를 112Gbps로 연결해 LPU당 약 2.5TB/s, 256개 LPU가 구성하는 래크 전체로는 640TB/s의 스케일업 대역폭을 확보한다. 두 시스템의 역할 분담은 AFD(Attention-FFN Disaggregation, 어텐션-FFN 분리) 방식으로 구현된다. Vera Rubin GPU가 누적된 KV 캐시에 대한 디코드 어텐션을 처리하는 동안 Groq 3 LPX는 FFN(Feed-Forward Network) 실행을 가속하며, 매 토큰마다 중간 활성화 데이터를 낮은 오버헤드로 교환한다. Groq 3 LPX는 2026년 하반기 출시 예정이다.

데이터센터의 서버 랙과 케이블 배선 — 사진: Brett Sayles / Pexels

에이전트 AI는 단일 요청을 처리하는 기존 추론과 달리 다단계 추론·도구 호출·장기 컨텍스트 유지가 동시에 요구되기 때문에 기존 GPU 아키텍처만으로는 대역폭과 지연 시간 두 가지를 동시에 충족하기 어렵다. 엔비디아는 이번 플랫폼이 수십만 명 규모의 동시 에이전트를 서비스하는 AI 팩토리 구현을 겨냥하며, 에이전트 워크로드에서 발생하는 매출 기회가 기존 대비 최대 10배 확대된다고 설명했다. 엔비디아는 DynoSim 시뮬레이터로 파레토 최적 프런티어를 사전에 도출해 실제 배포 전에 구성 최적화가 가능하다고 덧붙였다.

Vera Rubin NVL72의 HBM4는 삼성전자와 SK하이닉스가 핵심 공급사로 거론되는 차세대 메모리 규격이다. 래크 한 대에 20.7TB에 달하는 HBM4 탑재 요구는 두 기업의 고대역폭 메모리 생산 로드맵과 직결된다. 에이전트 AI 인프라 수요가 본격화할 경우 HBM4 출하량 전망과 단가 협상에서 한국 반도체 업계가 유리한 위치를 점할 수 있다는 시각이 있다. 다만 Groq 3 LPX의 SRAM 중심 구조가 HBM 의존도를 분산시키는 방향이어서, 전체 메모리 수요 구조가 기존 HBM 단일 의존 체계에서 복합 구조로 진화할 가능성도 함께 주목된다.