NVIDIA, AI 팩토리를 '전력→토큰 변환 공장'으로 정의하며 인프라 경제학 재설계

NVIDIA, AI 팩토리를 ‘전력→토큰 변환 공장’으로 정의하며 인프라 경제학 재설계

NVIDIA가 AI 데이터센터를 단순한 컴퓨팅 시설이 아닌 전력을 토큰(token)으로 변환하는 상시 가동 지능 생산 공장, 즉 ‘AI 팩토리’로 정의하며 에이전틱(agentic) AI 시대의 새로운 인프라 경제학을 제시했다. AI 팩토리의 성과 지표는 이제 초당 토큰, 와트당 토큰, 토큰 당 비용, 가동률로 측정된다. NVIDIA는 성능당 전력 효율이 AI 팩토리 경쟁력의 궁극적 척도가 됐다고 강조했다.

AI 팩토리가 다루는 워크로드는 단순 질의응답을 넘어섰다. 자율 에이전트가 추론하고, 계획을 세우고, 도구를 활용하며, 코드를 작성하고 실행하는 복합 작업을 처리해야 하기 때문에 작업당 필요한 단계 수와 연산량이 기존 대화형 AI에 비해 수십 배 이상 늘어났다. 이에 따라 AI 팩토리는 하드웨어·네트워킹·메모리·스토리지·소프트웨어가 전 스택에 걸쳐 공동 설계(codesign)된 시스템으로 구현돼야 한다. 추론은 실시간 오케스트레이션 과제가 됐고, 요청 라우팅·메모리 관리·서비스 조율·레이턴시와 처리량 균형을 동시에 유지하는 소프트웨어 레이어가 공장 생산성의 핵심 결정 변수가 된다고 NVIDIA는 설명했다.

Visual abstraction of neural networks in AI technology, featuring data flow and algorithms. — 사진: Google DeepMind / Pexels

구체적인 성능 수치도 공개됐다. 시장조사 기관 세미어낼리시스(SemiAnalysis)의 InferenceX 벤치마크에 따르면, NVIDIA 블랙웰 울트라(Blackwell Ultra) GPU를 탑재한 GB300 NVL72 시스템은 전 세대 호퍼(Hopper) 플랫폼 대비 메가와트당 토큰 처리량이 50배, 토큰당 비용은 35배 낮아졌다. NVIDIA 다이나모(Dynamo) 프레임워크는 장문 컨텍스트 추론과 대규모 추론 처리량을 조율해 워크로드가 복잡해질수록 가동률을 높게 유지하도록 설계됐다. 이어 출시 예정인 베라 루빈(Vera Rubin) 플랫폼은 LPX 방식을 통해 와트당 성능을 기존 대비 최대 35배 더 끌어올리고 토큰 단가를 추가로 낮출 것으로 예고됐다.

NVIDIA는 현재 AI 팩토리가 단순 내부 인프라를 넘어 지능을 지속적으로 생산하는 산업 설비로 자리잡고 있다고 강조했다. 에이전틱 AI 워크로드는 합성 훈련 데이터를 스스로 생성하고, 자율 시스템이 새 엣지 사례를 학습하는 데 그 데이터를 활용하는 선순환 구조를 형성한다. AI가 더 이상 단순 소프트웨어가 아닌 필수 인프라로 자리매김한 만큼, AI 팩토리의 효율성과 확장성이 기업과 국가의 AI 경쟁력을 가르는 핵심 요소가 될 것이라는 전망이다.