NVIDIA, 쿠버네티스 LLM 추론 콜드스타트 단축하는 Dynamo Snapshot 공개

NVIDIA가 쿠버네티스(Kubernetes) 환경에서 LLM(대규모 언어 모델) 추론 워크로드의 콜드스타트 지연을 줄이는 체크포인트·복원 솔루션 ‘Dynamo Snapshot’을 공개했다. 프로덕션 추론 배포 환경에서는 트래픽 급증 시 추론 복제본을 빠르게 확장해야 하지만, 단일 GPU vLLM 워크로드의 경우 콜드스타트에만 수 분이 소요돼 그 시간 동안 GPU가 유휴 상태에 놓이고 서비스 수준 협약(SLA) 위반 위험이 높아진다.

Dynamo Snapshot은 CRIU(사용자 공간 체크포인트·복원)와 cuda-checkpoint 두 도구를 조합해 실행 중인 추론 워커의 전체 상태를 저장하고 복원하는 방식으로 작동한다. cuda-checkpoint는 CUDA 컨텍스트·스트림·디바이스 메모리 등 GPU 측 상태를 CPU 메모리로 덤프하고, CRIU는 CPU 측 프로세스 트리 전체를 직렬화해 스토리지에 기록한다. 복원 시에는 CRIU가 프로세스 트리를 재구성하고 cuda-checkpoint가 직렬화된 GPU 상태를 새 GPU에 올린다. 복원된 워커는 체크포인트 시점의 명령에서 실행을 재개하므로 체크포인트와 복원 과정을 인지하지 못한다.

Close-up of a RTX 2080 Super graphics card against a bright yellow backdrop, showcasing high-tech design. — 사진: Andrey Matveev / Pexels

쿠버네티스 환경에서는 권한 있는 DaemonSet인 ‘snapshot-agent’를 Helm 차트로 설치해 각 노드에서 독립적으로 체크포인트와 복원을 처리한다. 이 구조는 클러스터 전반의 작업을 자연스럽게 병렬화하며, 클라우드 공급사의 체크포인트·복원 기능 게이트에 의존하지 않아 이식성이 높다. 또 CRIU 성능 튜닝과 스토리지 백엔드를 유연하게 설정할 수 있다는 장점이 있다. Dynamo 추론 워커는 엔진 초기화 단계가 완료돼 워밍업된 직후, 외부 연결이 열리기 전 상태에서 체크포인트를 찍어 복원 시 활성 TCP 연결 문제를 피하는 퀴에스(quiesce)·재개 훅 구조를 갖췄다.

NVIDIA는 이번 Dynamo Snapshot을 빠른 시작 기능에 관한 시리즈의 첫 번째 글로 소개하며, 단일 GPU 워크로드에서 이론적 한계에 근접하는 시작 시간을 달성하는 초기 프로토타입임을 명시했다. 추론 수요가 예측 불가능하게 변동하는 프로덕션 환경에서 GPU 자원 낭비를 줄이고 탄력적 확장 속도를 높이는 데 기여할 것으로 기대되며, 향후 멀티 GPU 및 분산 추론 환경으로의 확장 방향도 예고했다.