엔비디아, 쿠버네티스 AI 추론 콜드스타트 단축 기술 '다이나모 스냅샷' 공개

엔비디아, 쿠버네티스 AI 추론 콜드스타트 단축 기술 ‘다이나모 스냅샷’ 공개

엔비디아(NVIDIA) AI 연구팀이 쿠버네티스(Kubernetes) 환경에서 AI 추론 워크로드의 콜드스타트(cold start) 지연을 대폭 줄이는 ‘다이나모 스냅샷(Dynamo Snapshot)’을 공개했다. 기존에는 모델 서버가 첫 요청을 처리하기 전까지 컨테이너 이미지 풀, 모델 가중치 로드, CUDA 커널 웜업, CUDA 그래프 컴파일 등 순차적 초기화 과정을 거쳐야 했으며, 이 과정이 수 분에 달해 트래픽 급증 시 서비스 수준 약정(SLA) 위반 위험이 상존했다.

다이나모 스냅샷은 CRIU(Checkpoint/Restore In Userspace)와 엔비디아의 cuda-checkpoint 두 도구를 결합해 실행 중인 추론 워커 상태를 그대로 저장했다가 동일하거나 다른 노드에서 즉시 복원하는 체크포인트-복원 방식을 채택한다. KV 캐시 메모리를 CUDA 가상 메모리 관리 API를 통해 할당해 체크포인트 크기를 B200 GPU 기준 약 190GiB에서 약 6GiB(Qwen3-0.6B 기준)로 줄이는 최적화도 적용됐다. 업스트림 CRIU 대비 복원 속도를 최대 7.9배 단축하는 병렬 메모리 복원 기법도 개발됐으나 이 부분은 CRIU 상류 병합 후 정식 배포될 예정이다.

Detailed view of network cables plugged into a server rack in a data center. — 사진: Brett Sayles / Pexels

엔비디아는 여기서 나아가 모델 가중치를 CRIU 아티팩트에서 분리해 별도 채널로 병렬 복원하는 GPU 메모리 서비스(GMS)를 추가 개발했다. 8개의 로컬 NVMe SSD를 활용한 개념 검증 실험에서 gpt-oss-120b 모델의 엔드투엔드 시작 시간이 21배 단축돼 5초 이내로 줄어들었다. 현재 다이나모 스냅샷은 단일 GPU vLLM 워커를 대상으로 제한 미리보기(limited preview) 상태로 제공되며, 멀티 GPU 텐서 병렬 설정이나 다중 모달 워커는 아직 지원하지 않는다. 쿠버네티스 배포는 Helm 차트로 설치하는 특권(privileged) DaemonSet 방식으로 이루어진다.