아마존 SageMaker AI, 컨테이너 캐싱 도입…생성AI 모델 확장 속도 최대 2배

아마존웹서비스(AWS)가 아마존 SageMaker AI 추론 서비스에 컨테이너 이미지 캐싱 기능을 새로 도입했다. 이 기능은 생성AI 모델의 트래픽 급증 시 신규 인스턴스를 추가로 기동할 때 발생하는 콜드 스타트 지연을 대폭 단축하는 것이 목적이다. AWS는 이번 발표를 통해 생성AI 워크로드의 엔드투엔드 확장 지연을 최대 2배까지 줄일 수 있다고 밝혔다.

기존 SageMaker AI 확장 과정에서 새 인스턴스를 기동할 때는 컨테이너 이미지 다운로드, 모델 가중치 불러오기, 컨테이너 시작 및 준비 검사가 순차적으로 이뤄진다. 특히 생성AI 워크로드에 주로 사용되는 SageMaker LMI(vLLM 기반), vLLM, NVIDIA Triton 같은 대형 컨테이너의 이미지 다운로드가 전체 지연의 주요 병목이었다. 실측 수치를 보면 Qwen3-8B(16GB) 모델을 ml.g6.2xlarge 인스턴스에서 LMI 컨테이너(17.7GB 압축)로 기동할 때 캐싱 적용 전에는 컨테이너 이미지 다운로드에 333초가 걸렸다. 이미지 다운로드와 모델 다운로드가 네트워크 대역폭을 나눠 써 전체 기동에 525초가 소요됐다. 컨테이너 캐싱 적용 후에는 이미지 다운로드 시간이 0초가 되고 네트워크 경합 해소로 모델 다운로드 시간도 168초에서 77초로 단축돼 전체 기동이 258초로 줄었다. 약 51% 개선이다.

조기 접근 고객 사례에서도 유사한 성과가 확인됐다. 이미지 크기 15.7GB에 모델 없이 순수 컨테이너만 기동하는 경우 P50 기준 381초에서 134초(65% 개선)로, 17.5GB 컨테이너에 5.8GB 모델 조합은 346초에서 164초(52% 개선)로 개선됐다. 컨테이너 캐싱은 별도 설정 없이 지원되는 가속기 인스턴스 타입에서 자동 활성화된다. 캐시를 사용할 수 없는 경우에는 자동으로 Amazon ECR에서 이미지를 다시 내려받아 확장이 중단되지 않도록 처리된다. 각 캐시는 단일 고객 엔드포인트 전용이며 AWS 계정이나 엔드포인트 간에 공유되지 않아 테넌트 격리가 유지된다.

이번 캐싱 기능은 AWS가 진행해 온 SageMaker AI 오토 스케일링 최적화 시리즈의 세 번째 단계다. 첫 번째는 기존 1분 CloudWatch 지표보다 6배 빠른 서브미닛(sub-minute) 지표를 통한 스케일아웃 감지, 두 번째는 이미 실행 중인 인스턴스에 추론 컴포넌트를 추가할 때의 데이터 캐시 기능이다. 세 가지를 함께 적용하면 수분 단위의 콜드 스타트 지연을 빠르고 예측 가능한 응답으로 전환할 수 있다고 AWS는 설명했다. 컨테이너 캐싱은 SageMaker AI 추론이 지원되는 모든 상용 AWS 리전에서 이용 가능하다.