엔비디아(NVIDIA)가 AI 팩토리의 대규모 운영을 위한 오픈소스 모듈형 소프트웨어 스택 DSX OS를 공개했다. 자체 DGX Cloud 운영 과정에서 검증된 기술을 기반으로, 에너지·칩·인프라·모델·애플리케이션의 5계층 AI 팩토리 스택을 통합 조율하는 것이 핵심 목표다.
DSX OS의 구성 요소는 기능별로 세분화돼 있다. 에너지 관리 측면에서는 DSX MaxLPS가 고정 전력 예산 내에서 최대 40% 더 많은 GPU를 피크 에너지 효율로 운영할 수 있도록 하며, DSX Flex는 전력망 수요 대응 및 재생에너지 연계를 지원한다. IT/OT 통합을 담당하는 DSX Exchange는 MQTT 기반 허브로 전력망 신호와 열 데이터를 실시간 조율한다. 인프라 라이프사이클 관리는 NVIDIA Infra Controller(NICo)가 API 기반 베어메탈 관리를 맡고, NVIDIA AI Cluster Runtime(AICR)이 버전 고정 구성으로 설정 편차를 제거한다. GPU 장애 감지와 자동 복구는 NVSentinel이 초 단위로 처리하며, 글로벌 배포 상황에 대한 가시성은 Fleet Intelligence가 제공한다.

워크로드 스케줄링과 추론 서빙 영역에서는 KAI Scheduler와 Run:ai가 토폴로지 인식 GPU 배치를 담당하고, Dynamo와 Grove가 분산 추론 서빙을 처리한다. 하나의 통합 API인 NVCF(NVIDIA Cloud Functions)는 추론·파인튜닝·배치 작업을 아우른다. 엔비디아는 이를 통해 전력을 단순한 비용 항목이 아니라 프로그래밍 가능한 자원으로 취급하고, 수동 대응 방식을 자동 복구 체계로 전환하는 것이 핵심 철학이라고 밝혔다. DSX OS는 이미 CoreWeave, Lambda, Emerald AI, Red Hat, Mirantis 등 40개 이상 파트너사가 실제 배포에 적용 중이다.
파트너사들이 모든 구성 요소를 처음부터 개발할 필요 없이 검증된 컴포넌트를 선택적으로 채택할 수 있는 것이 DSX OS의 차별점이다. 엔비디아는 이 오픈 모듈형 접근 방식을 통해 AI 팩토리 운영의 진입 장벽을 낮추고, 토큰당 비용 절감과 배포 시간 단축을 실현할 수 있다고 강조했다.


