엔비디아 베라 루빈 플랫폼, 에이전틱 AI 대규모 확장 병목 해소

엔비디아(NVIDIA)가 자사 베라 루빈(Vera Rubin) 플랫폼이 에이전틱(Agentic) AI 워크로드의 대규모 확장 문제를 해결하는 방식을 공식 블로그를 통해 공개했다. 에이전틱 추론(agentic inference)은 AI 에이전트가 과제를 수행하는 과정에서 행동·관찰·의사결정을 비결정론적으로 이어가기 때문에, 세션당 수백 건의 추론 요청이 누적되며 단대단 지연이 기하급수적으로 늘어나는 특성이 있다. 엔비디아는 베라 루빈 NVL72를 이 워크로드의 핵심 연산 엔진으로 제시했다.

핵심은 엔비디아 그로크 3 LPX(Groq 3 LPX)를 베라 루빈 NVL72와 결합한 것이다. 기존 데이터센터 네트워크는 대형 학습 작업이나 대용량 추론에 최적화돼 있어 소규모 배치·극저지연이 요구되는 에이전틱 워크로드에서 성능이 흔들렸다. 그로크 3 LPX의 LPU C2C(칩간 연결) 기술은 칩별 독립 클록에서 발생하는 드리프트를 플레시오동기(plesiosynchronous) 프로토콜로 보정해 수천 개의 LPU가 하나의 코어처럼 동작하도록 한다. LPU 한 개당 96개의 C2C 링크가 초당 112Gbps로 동작해 LPU당 약 2.5TB/s, 랙 전체로는 640TB/s의 스케일업 대역폭을 확보한다.

사진: UMA media / Pexels

데이터 이동 방식도 기존과 다르다. 소프트웨어 컴파일러가 320바이트 벡터 단위의 통신 일정을 실행 전에 사전 배정(정적 스케줄)하기 때문에, 런타임 충돌이나 하드웨어 스케줄러의 경합 없이 수천 개 칩을 단일 실행 면처럼 다룰 수 있다. 멀티 에이전트 파이프라인에서 에이전트마다 자체 KV 캐시(키-값 캐시), 시스템 프롬프트, 도구 정의, 대화 이력을 갖고 조 단위 파라미터 모델을 통과해야 하는 부담을 이 구조가 흡수한다. 엔비디아는 이를 통해 고처리량과 저지연을 파레토 곡선의 신규 점(new Pareto point)에서 동시에 달성한다고 설명했다.

에이전틱 AI 시장이 빠르게 성장하면서, 수백에서 수천 개 칩을 묶어 예측 가능한 저지연으로 운용하는 능력이 플랫폼 경쟁력의 핵심 변수로 부상하고 있다. 엔비디아는 이번 구조를 통해 조 단위 파라미터 혼합전문가(MoE) 모델을 긴 컨텍스트 창 환경에서도 경제적으로 서비스할 수 있다고 밝혔다. AI 에이전트가 도구 호출·메모리 조회·다단계 계획 수립을 실시간으로 처리해야 하는 엔터프라이즈 수요가 커질수록, 결정론적 스케일업 네트워킹을 갖춘 플랫폼의 차별성이 더욱 부각될 전망이다.