엔비디아(NVIDIA)가 데이터센터 GPU 플릿을 실시간으로 모니터링하는 에이전트 기반 관리형 서비스 ‘플릿 인텔리전스(Fleet Intelligence)’를 정식 출시(GA)했다. 이 서비스는 엔비디아가 수십만 대 규모의 DGX 클라우드 GPU 플릿을 직접 운영하며 축적한 기술과 지식을 바탕으로 설계됐으며, 베라 루빈(Vera Rubin)·블랙웰(Blackwell)·호퍼(Hopper) 아키텍처 기반 데이터센터급 GPU를 지원한다.
플릿 인텔리전스는 경량 호스트 에이전트를 통해 GPU 텔레메트리를 클라우드 서비스로 스트리밍하는 방식으로 동작한다. 에이전트는 오픈소스로 공개(GitHub: NVIDIA/fleet-intelligence-agent)됐으며, GPU 전력·온도·메모리 대역폭·인터커넥트 상태·XID 오류·ECC 오류 등 광범위한 지표를 수집한다. 수집 데이터는 엔비디아 NGC의 헬스(Health) 포털에서 데이터센터·클라우드 영역별로 시각화되고, 임계치 초과나 이상 징후가 감지되면 이메일·슬랙 등으로 즉시 알림을 전송한다. GPU 무결성 검증에는 엔비디아 기밀 컴퓨팅(Confidential Computing) 기술을 활용해 원격 증명 서비스(NRAS)가 각 GPU의 소프트웨어 무결성을 암호화 방식으로 확인한다. 무결성 증명은 현재 베라 루빈과 블랙웰 아키텍처에서 지원된다.
서비스는 인벤토리·시각화, 보고·알림·헬스 체크, 무결성·증명의 세 가지 영역에 집중한다. 에이전트는 GPUd, 엔비디아 데이터센터 GPU 매니저(DCGM) 등 기존 오픈소스 솔루션을 활용해 수동 헬스 체크와 주기적 헬스 체크를 병행하며, 향후 출시 버전에서는 축적된 익명 결함 데이터를 바탕으로 예측 장애 분류 모델도 제공할 계획이다. 람다(Lambda)의 최고과학책임자 추안 리는 “최소한의 설정으로 블랙웰·호퍼 GPU 플릿 전반에 엔드투엔드 가시성을 확보했다”고 밝혔다.
플릿 인텔리전스는 엔비디아 데이터센터 GPU 소유자·운영자·클라우드 테넌트에게 현재 무상으로 제공된다. 소프트웨어 스택이나 스케줄러 종류에 관계없이 배포할 수 있어, 이기종 하드웨어와 멀티테넌트 워크로드를 운영하는 대규모 AI 인프라 운영팀이 주요 대상이다.














