아마존 웹 서비스(AWS)가 AI 추론 인프라 최적화 기술을 공개했다. 핵심은 아마존 FSx for Lustre 파일시스템과 엔비디아(NVIDIA) GPUDirect Storage(GDS)를 조합해 LLM(대규모 언어 모델) 가중치를 GPU 고대역폭 메모리(HBM)에 직접 로드하는 방식이다. 기존 CPU를 경유하는 전통 방식과 달리 GDS는 스토리지에서 GPU 메모리로 직접 데이터를 전송해 CPU 병목을 원천 차단한다. 실측 결과, Llama 3.1 405B 모델 기준으로 CPU 방식 대비 약 169배 빠른 6.4초 만에 모델 로딩이 완료됐다.
구체적인 수치를 보면, 표준 vLLM 방식으로 FP8 양자화를 병행할 경우 405B 모델 로딩에 약 18분이 소요된다. 사전에 모델을 텐서 병렬 샤드로 분리해두면 약 2분으로 줄고, FSx + GDS 병렬 로드를 적용하면 6.4초까지 단축된다. 이 성능은 96 TiB Persistent_2 EFA 파일시스템(OST 20개, 약 94 GiB/s 처리량)을 기준으로 측정됐으며 파일시스템 용량을 늘리면 속도가 비례해 향상된다. 70B 모델은 FP8 샤드 기준 1.28초가 측정됐다. 핵심 원리는 8개 GPU가 사전 분할·양자화된 자신의 샤드를 동시에 독립적으로 읽는 병렬화로, CPU 역직렬화와 순차 전송이라는 두 가지 병목을 동시에 제거한다.

컨텍스트 창 확장에는 구글 리서치가 ICLR 2026에서 발표한 TurboQuant KV 캐시 압축 기술이 활용됐다. TurboQuant는 추론 중에 늘어나는 KV 캐시를 값당 약 3비트로 압축해 HBM 점유를 대폭 줄인다. P5en 인스턴스(H200 GPU 8개) 기준으로 FP8 가중치와 TurboQuant를 함께 적용하면 405B 모델의 컨텍스트 창이 기본 약 8만 2000토큰에서 40만 토큰 이상으로 5배 확장된다. P6 인스턴스(B200 GPU 8개)에서는 약 66만 토큰까지 가능하다. 이는 단일 요청에서 책 한 권 분량의 텍스트를 처리할 수 있는 수준이다.
이 기술은 국내 AI 기업과 클라우드 서비스 사업자에게도 직접적인 의미를 갖는다. 콜드 스타트 지연 감소, 오토스케일링 반응 속도 향상, 장애 복구 시간 단축, GPU 유휴 시간 감소라는 네 가지 효과가 동시에 달성되기 때문이다. vLLM, TensorRT-LLM 등 주요 추론 프레임워크와 이미 호환되며, AWS 공식 CloudFormation 템플릿과 설정 스크립트가 GitHub에 공개됐다.


