• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

AWS, GPUDirect로 LLM 모델 로딩 169배 단축하고 컨텍스트 5배 확장

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 02일 11시 00분
Home 반도체·인프라
Share on FacebookShare on Twitter

아마존 웹 서비스(AWS)가 AI 추론 인프라 최적화 기술을 공개했다. 핵심은 아마존 FSx for Lustre 파일시스템과 엔비디아(NVIDIA) GPUDirect Storage(GDS)를 조합해 LLM(대규모 언어 모델) 가중치를 GPU 고대역폭 메모리(HBM)에 직접 로드하는 방식이다. 기존 CPU를 경유하는 전통 방식과 달리 GDS는 스토리지에서 GPU 메모리로 직접 데이터를 전송해 CPU 병목을 원천 차단한다. 실측 결과, Llama 3.1 405B 모델 기준으로 CPU 방식 대비 약 169배 빠른 6.4초 만에 모델 로딩이 완료됐다.

구체적인 수치를 보면, 표준 vLLM 방식으로 FP8 양자화를 병행할 경우 405B 모델 로딩에 약 18분이 소요된다. 사전에 모델을 텐서 병렬 샤드로 분리해두면 약 2분으로 줄고, FSx + GDS 병렬 로드를 적용하면 6.4초까지 단축된다. 이 성능은 96 TiB Persistent_2 EFA 파일시스템(OST 20개, 약 94 GiB/s 처리량)을 기준으로 측정됐으며 파일시스템 용량을 늘리면 속도가 비례해 향상된다. 70B 모델은 FP8 샤드 기준 1.28초가 측정됐다. 핵심 원리는 8개 GPU가 사전 분할·양자화된 자신의 샤드를 동시에 독립적으로 읽는 병렬화로, CPU 역직렬화와 순차 전송이라는 두 가지 병목을 동시에 제거한다.

Detailed image of a graphics card with metal cooling fans and branding.
사진: Sergei Starostin / Pexels

컨텍스트 창 확장에는 구글 리서치가 ICLR 2026에서 발표한 TurboQuant KV 캐시 압축 기술이 활용됐다. TurboQuant는 추론 중에 늘어나는 KV 캐시를 값당 약 3비트로 압축해 HBM 점유를 대폭 줄인다. P5en 인스턴스(H200 GPU 8개) 기준으로 FP8 가중치와 TurboQuant를 함께 적용하면 405B 모델의 컨텍스트 창이 기본 약 8만 2000토큰에서 40만 토큰 이상으로 5배 확장된다. P6 인스턴스(B200 GPU 8개)에서는 약 66만 토큰까지 가능하다. 이는 단일 요청에서 책 한 권 분량의 텍스트를 처리할 수 있는 수준이다.

이 기술은 국내 AI 기업과 클라우드 서비스 사업자에게도 직접적인 의미를 갖는다. 콜드 스타트 지연 감소, 오토스케일링 반응 속도 향상, 장애 복구 시간 단축, GPU 유휴 시간 감소라는 네 가지 효과가 동시에 달성되기 때문이다. vLLM, TensorRT-LLM 등 주요 추론 프레임워크와 이미 호환되며, AWS 공식 CloudFormation 템플릿과 설정 스크립트가 GitHub에 공개됐다.

Tags: AWSFSxLustreGPUDirectLLMNVIDIATurboQuant모델추론
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Close-up of vintage typewriter with 'AI ETHICS' typed on paper, emphasizing technology and responsibility.

AI 챗봇, 종교 상담은 회피하고 특정 신앙 편향 드러낸다는 연구

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic Arm AWS ChatGPT Claude Co-Scientist Gemini GPU IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 스타트업 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 자율주행 중국 클라우드 클로드 허깅페이스

최근 뉴스

Person engaging in a shooting video game on a high-performance setup with mechanical keyboard.

MAP-Elites 알고리즘으로 FPS 게임 맵 자동 생성하는 연구 공개

2026년 06월 02일 12시 05분
Flat lay of real estate brochures, checklists, and a calculator for home buying.

LLM 판사 평가 표준화하는 정책 루브릭 측정 명세 PReMISE 발표

2026년 06월 02일 12시 04분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.