엔비디아, 온프레미스 AI 팩토리용 엔터프라이즈 레퍼런스 아키텍처 공개

엔비디아(NVIDIA)가 기업의 온프레미스 AI 팩토리 구축을 지원하는 엔터프라이즈 레퍼런스 아키텍처(Enterprise RA)를 공개했다. 이번 아키텍처는 컴퓨팅·네트워크·스토리지·소프트웨어를 통합한 프로덕션 수준의 AI 플랫폼 설계 지침으로, 기업이 개념 검증 단계에서 실 운영 환경으로 전환하는 시간을 수개월에서 수 주로 단축하는 것을 목표로 한다.

공개된 레퍼런스 아키텍처는 규모와 워크로드에 따라 세 가지로 구분된다. RTX PRO AI 팩토리는 중소형 모델 추론과 파인튜닝에 최적화된 공랭식 구성으로, RTX PRO 블랙웰 서버 에디션 GPU를 탑재하며 128~256개 GPU 클러스터로 확장 가능하다. HGX AI 팩토리는 대형 언어 모델(LLM) 학습 및 고처리량 추론을 겨냥한 구성으로, 노드당 최대 2.1TB의 GPU 메모리와 GPU당 800Gb/s 이더넷 대역폭을 제공한다. NVL72 AI 팩토리는 36개 그레이스(Grace) CPU와 72개 블랙웰 울트라(Blackwell Ultra) GPU를 5세대 NVLink로 연결한 랙 규모 시스템으로, 조 개 단위 파라미터 모델과 에이전틱 AI 파이프라인을 처리할 수 있다.

각 레퍼런스 아키텍처는 엔비디아 인증 시스템(NVIDIA-Certified Systems)을 기반으로 설계되며, 엔비디아 디자인 리뷰 보드(DRB)의 기술 검토를 통과한 파트너 솔루션과 결합된다. 엔비디아는 소프트웨어 스택과 에코시스템 파트너 솔루션을 검증한 ‘AI 팩토리 검증 설계(Validated Design)’ 가이드도 함께 배포해 기업이 에이전틱 AI 워크로드 운영을 즉시 시작할 수 있도록 지원한다. 파트너에 따라 스택의 특정 계층만 검증하거나 하드웨어·소프트웨어·네트워크를 아우르는 전체 시스템을 검증하며, 기준을 충족한 설계는 엔비디아 공인 솔루션으로 인정된다.

기업용 AI 인프라 시장에서 온프레미스 수요가 다시 주목받는 가운데, 엔비디아의 레퍼런스 아키텍처는 클라우드 의존도를 낮추면서도 검증된 스택을 원하는 기업에 사실상의 표준 설계도 역할을 할 전망이다. 엔비디아는 총 소유 비용(TCO) 최적화와 배포 타임라인 단축을 핵심 가치로 내세우며, 시스템 파트너 및 전문화 파트너를 통해 솔루션을 제공하고 있다.