• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

엔비디아, 쿠버네티스 AI 추론 콜드스타트 단축 기술 ‘다이나모 스냅샷’ 공개

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 06일 13시 49분
Reading Time: 1 min read
A A
Home 반도체·인프라
Share on FacebookShare on Twitter

엔비디아(NVIDIA) AI 연구팀이 쿠버네티스(Kubernetes) 환경에서 AI 추론 워크로드의 콜드스타트(cold start) 지연을 대폭 줄이는 ‘다이나모 스냅샷(Dynamo Snapshot)’을 공개했다. 기존에는 모델 서버가 첫 요청을 처리하기 전까지 컨테이너 이미지 풀, 모델 가중치 로드, CUDA 커널 웜업, CUDA 그래프 컴파일 등 순차적 초기화 과정을 거쳐야 했으며, 이 과정이 수 분에 달해 트래픽 급증 시 서비스 수준 약정(SLA) 위반 위험이 상존했다.

다이나모 스냅샷은 CRIU(Checkpoint/Restore In Userspace)와 엔비디아의 cuda-checkpoint 두 도구를 결합해 실행 중인 추론 워커 상태를 그대로 저장했다가 동일하거나 다른 노드에서 즉시 복원하는 체크포인트-복원 방식을 채택한다. KV 캐시 메모리를 CUDA 가상 메모리 관리 API를 통해 할당해 체크포인트 크기를 B200 GPU 기준 약 190GiB에서 약 6GiB(Qwen3-0.6B 기준)로 줄이는 최적화도 적용됐다. 업스트림 CRIU 대비 복원 속도를 최대 7.9배 단축하는 병렬 메모리 복원 기법도 개발됐으나 이 부분은 CRIU 상류 병합 후 정식 배포될 예정이다.

Detailed view of network cables plugged into a server rack in a data center.
사진: Brett Sayles / Pexels

엔비디아는 여기서 나아가 모델 가중치를 CRIU 아티팩트에서 분리해 별도 채널로 병렬 복원하는 GPU 메모리 서비스(GMS)를 추가 개발했다. 8개의 로컬 NVMe SSD를 활용한 개념 검증 실험에서 gpt-oss-120b 모델의 엔드투엔드 시작 시간이 21배 단축돼 5초 이내로 줄어들었다. 현재 다이나모 스냅샷은 단일 GPU vLLM 워커를 대상으로 제한 미리보기(limited preview) 상태로 제공되며, 멀티 GPU 텐서 병렬 설정이나 다중 모달 워커는 아직 지원하지 않는다. 쿠버네티스 배포는 Helm 차트로 설치하는 특권(privileged) DaemonSet 방식으로 이루어진다.

Tags: AI추론Dynamo엔비디아인프라쿠버네티스
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

관련 기사

Colorful circuit boards behind a wire mesh, enhanced with pink and purple hues.
반도체·인프라

엔비디아 RTX Spark, 애플 실리콘에 도전장 낸 윈도우 PC용 AI 칩

2026년 06월 06일 13시 58분
Cluster of yellow tower cranes at a construction site with a gloomy sky background.
반도체·인프라

에어트렁크, 인도에 300억 달러 투자해 AI 데이터센터 5GW 구축

2026년 06월 06일 08시 30분
Close-up of intricate circuit boards in a Vietnamese factory, capturing modern electronics production.
반도체·인프라

모건스탠리, AI발 메모리 가격 급등이 소비자 전자기기값 끌어올린다

2026년 06월 06일 00시 20분
Urban landscape silhouette featuring a communication tower against a vibrant sunset sky.
반도체·인프라

LG유플러스, 네트워크 AI 에이전트 간 통신 기술 국제 검증 나선다

2026년 06월 06일 00시 14분
Next Post
Colorful circuit boards behind a wire mesh, enhanced with pink and purple hues.

엔비디아 RTX Spark, 애플 실리콘에 도전장 낸 윈도우 PC용 AI 칩

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

  • 인기 급상승
  • 최신
A 3D rendering of a neural network with abstract neuron connections in soft colors.

퍼플렉시티, 로컬·클라우드 AI를 자동 판단하는 하이브리드 추론 시스템 발표

2026년 06월 04일 08시 53분
데이터센터 서버

구글, ‘제미나이 3.5 플래시’·AI 에이전트 ‘스파크’ 공개… 가격·사용자로 추격

2026년 06월 04일 15시 14분
책상에서 법률 문서에 서명하는 모습

앤트로픽, 클로드 에이전트 ‘드리밍’ 기능 공개… 법률·의료 AI 성능 대폭 향상

2026년 06월 04일 15시 19분
AMD EPYC 프로세서 다이(칩) 근접 촬영

AMD, 6세대 EPYC ‘베니스’ 2nm 양산 돌입… HPC 제품 최초

2026년 06월 04일 15시 19분
아마존 AWS 데이터센터 전경

아마존, ‘AI 사용량 순위표’ 폐기… 직원들 ‘토큰맥싱’에 역효과

2026년 06월 04일 15시 18분
View of Gyeongbokgung Palace with traditional Korean architecture set against a mountain backdrop on a sunny day.

한국 AI 컨트롤타워 이중 공백, 후임 인선 안갯속

2026년 06월 06일 15시 00분
Stunning view of the Milky Way galaxy above a desert observatory under a starry night.

두 양식 한계 넘는 멀티모달 분리 표현 학습 프레임워크 ‘RePercENT’

2026년 06월 06일 14시 55분
Classic San Francisco cable car on Powell and Mason, city streets, greenery, and iconic signs.

웨이모 자율주행차 이용한 샌프란시스코 절도범, 아직 미검거

2026년 06월 06일 14시 45분
Detailed macro shot of electronic circuit board showing microchips and components.

퀄컴 AI 허브 모델로 분류·객체탐지·온디바이스 배포 실습하기

2026년 06월 06일 14시 42분
A stunning view of the iconic United States Capitol under a blue sky in Washington, D.C.

오픈AI, 출시 전 AI 모델 미국 정부 검토 허용하기로

2026년 06월 06일 14시 36분

검색

No Result
View All Result

인기 태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM Meta Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 생성AI 스타트업 앤트로픽 에이전트 에이전틱AI 엔비디아 오픈AI 오픈소스 온디바이스AI 의료AI 자율주행 젠슨황 클로드 피지컬AI

카테고리

  • AI 모델·연구 (290)
  • AI 서비스·툴 (144)
  • 반도체·인프라 (153)
  • 빅테크·기업 (138)
  • 산업 적용 (124)
  • 스타트업·투자 (77)
  • 정책·윤리 (135)

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM Meta Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 생성AI 스타트업 앤트로픽 에이전트 에이전틱AI 엔비디아 오픈AI 오픈소스 온디바이스AI 의료AI 자율주행 젠슨황 클로드 피지컬AI

최근 뉴스

View of Gyeongbokgung Palace with traditional Korean architecture set against a mountain backdrop on a sunny day.

한국 AI 컨트롤타워 이중 공백, 후임 인선 안갯속

2026년 06월 06일 15시 00분
Stunning view of the Milky Way galaxy above a desert observatory under a starry night.

두 양식 한계 넘는 멀티모달 분리 표현 학습 프레임워크 ‘RePercENT’

2026년 06월 06일 14시 55분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책
  • 정정·반론 보도 안내
  • 편집·윤리강령

스토리움(STORIUM)  |  상호: [[상호]]  |  대표: [[대표자명]]  |  사업자등록번호: [[000-00-00000]]
인터넷신문 등록번호: [[등록 후 입력]]  |  발행인: [[발행인]]  |  편집인: [[편집인]]  |  청소년보호책임자: STORIUM 편집부
주소: [[사업장 주소]]  |  이메일: lee.kkhwan@gmail.com
© 2026 STORIUM. All Rights Reserved.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

스토리움(STORIUM)  |  상호: [[상호]]  |  대표: [[대표자명]]  |  사업자등록번호: [[000-00-00000]]
인터넷신문 등록번호: [[등록 후 입력]]  |  발행인: [[발행인]]  |  편집인: [[편집인]]  |  청소년보호책임자: STORIUM 편집부
주소: [[사업장 주소]]  |  이메일: lee.kkhwan@gmail.com
© 2026 STORIUM. All Rights Reserved.