AWS, SOCI 기술로 딥러닝 컨테이너 콜드 스타트 시간 20배 단축

아마존 웹 서비스(AWS)가 딥러닝 AMI(DLAMI)와 딥러닝 컨테이너(DLC)에 시크어블 OCI(SOCI, Seekable OCI) 스냅샷터와 인덱스 지원을 추가했다고 공식 블로그를 통해 밝혔다. SOCI는 컨테이너 이미지 내 파일 위치를 레이어 기반 인덱스로 매핑해 워크로드 실행에 필요한 파일만 선택적으로 다운로드하는 기술이다. 이 방식을 적용하면 수십 기가바이트에 달하는 전체 이미지를 받지 않고도 컨테이너를 즉시 구동할 수 있어, AI 및 머신러닝(ML) 훈련과 추론 환경에서 반복적으로 문제가 됐던 긴 컨테이너 시작 시간을 크게 줄일 수 있다. 기존에는 15~20GB 크기의 표준 도커 이미지를 내려받는 데 인스턴스당 4~6분이 소요됐으며, 그 시간 동안 GPU 인스턴스가 유휴 상태로 남아 비용이 낭비됐다.

AWS가 공개한 벤치마크에 따르면 성능 차이는 뚜렷하다. 9.72GB 압축 크기(디스크 사용량 32.7GB)의 vLLM 딥러닝 컨테이너를 g5.2xlarge 인스턴스에서 표준 도커 방식으로 기동할 경우 약 6분 59초가 소요됐다. 같은 환경에서 SOCI 스냅샷터의 지연 로딩(lazy loading) 모드를 적용하자 시작 시간이 21.125초로 줄었다. 약 20배의 단축이다. 지연 로딩은 컨테이너 구동에 꼭 필요한 레이어만 먼저 불러오고 나머지는 백그라운드에서 필요할 때 로딩하는 방식으로, 이 모드를 사용하려면 이미지에 SOCI 인덱스가 미리 생성되어 있어야 한다. AWS 딥러닝 컨테이너 가운데 `-soci` 접미사가 붙은 이미지는 인덱스가 사전에 제공된다. 전체 이미지를 다운로드하되 높은 동시성으로 속도를 높이는 병렬 풀(parallel pull) 모드도 제공되며, 19.32GB 이미지 기준 4분 44초에서 2분 12초로 약 2.2배 향상됐다.

두 가지 모드 중 어느 방식이 더 적합한지는 인스턴스 사양과 스토리지 구성에 따라 달라진다. 낮은 사양의 인스턴스는 리소스 절약을 위해 지연 로딩이 권장되고, 다수의 vCPU와 높은 네트워크 대역폭을 갖춘 고사양 인스턴스는 병렬 풀 모드가 더 유리하다. EBS 볼륨은 프로비저닝된 IOPS에 따라 병목이 생길 수 있는 반면, NVMe 인스턴스 스토어는 최대 I/O 성능을 제공하지만 인스턴스 재시작 시 데이터가 유지되지 않는다. AWS는 현재 DLAMI와 딥러닝 컨테이너를 통해 이 기능을 공개 제공하고 있으며, 지원 이미지 목록은 SOCI 인덱스 DLAMI 페이지와 딥러닝 컨테이너 저장소에서 확인할 수 있다. 대규모 AI 인프라 운영에서 컨테이너 시작 지연이 학습 일정과 추론 응답성에 미치는 영향이 크다는 점에서, 이 기능 도입은 운영 효율과 GPU 활용률 개선에 직접적인 효과를 가져올 전망이다.