엔비디아(NVIDIA)가 AI 전용 워크스테이션 DGX 스파크(DGX Spark)에 기업 IT 환경을 위한 엔터프라이즈 매니저빌리티(Enterprise Manageability) 프레임워크를 공개했다. 이 프레임워크는 AI 시스템을 처음 도입하는 시점부터 폐기에 이르기까지 전체 운영 생명주기를 단일 구조 안에서 관리할 수 있도록 설계됐으며, 인터넷이 차단된 에어갭(air-gapped) 환경도 지원한다.
핵심 운영 방식은 에이전트리스 SSH 실행 모델이다. DGX 스파크 엔드포인트에 상주 관리 에이전트를 설치할 필요 없이, IT 팀이 SSH를 통해 도구를 호출하면 표준화된 JSON 형식으로 결과를 반환한다. 이 출력값은 CMDB(구성 관리 데이터베이스)·SIEM(보안 이벤트 관리)·모니터링 파이프라인에 그대로 연결된다. 프레임워크는 조달·수령, 초기 프로비저닝, 지속 모니터링, 유지보수 창 운영, 장애 대응, 수명 종료 및 재배포의 6단계 운영 생명주기 단계별로 프로덕션 도구와 참조 스크립트를 제공한다. Progress Chef, Perforce Puppet, Canonical Landscape 등 기업 IT 팀이 기존에 쓰던 오케스트레이션 플랫폼과 호환하도록 모듈형 스택으로 구성됐다.
진단 영역에서는 두 가지 도구가 중심 역할을 한다. spark_diagctl.py는 원격 SSH로 시스템 상태를 점검하며, 빠른 헬스 요약을 반환하는 L1 모드와 GPU 텔레메트리·커널 로그·PCIe 상태를 포함한 전체 진단 번들을 생성하는 L2 모드로 작동한다. reset_reason_reporter.py는 시스템 이벤트 로그, BMC 기록, 펌웨어 이벤트 등 여러 증거를 종합해 재부팅 원인을 구조화된 방식으로 분석한다. 업데이트 관리 도구 spark_updatectl.py는 현재 패키지 상태와 펌웨어 업데이트 적용 가능 여부를 JSON 보고서로 제공하며, 단계적 롤아웃과 롤백 기능도 갖췄다.
보안 측면에서도 컴플라이언스 요구 사항을 반영한 설계가 적용됐다. 보안 부팅 무결성 검증, 디스크 암호화 상태 보고(180~365일 감사 보존 권장), APT 패키지 서명 검증, 체인오브커스터디가 포함된 팩토리 리셋, UEFI 기반 자산 메타데이터 태그 기능이 포함됐다. 수집기(읽기 전용)와 컨트롤러(상태 변경)를 최소 권한 원칙으로 분리해 기업 IT의 역할 기반 접근 제어 체계에 맞췄다. 엔비디아는 DGX 스파크 매니저빌리티 가이드와 클라우드-이닛(cloud-init) 기반 커스텀 설치 가이드를 함께 공개했다.














