아마존 SageMaker, P-EAGLE로 LLM 추론 속도 최대 1.69배 향상

AWS가 자체 개발한 병렬 추측 디코딩 기술 P-EAGLE(Parallel-EAGLE)을 아마존 세이지메이커(Amazon SageMaker) JumpStart에 정식 탑재했다. P-EAGLE은 기존 EAGLE-3 프레임워크에서 순차적으로 처리되던 초안 토큰 생성을 단일 포워드 패스(forward pass)로 동시에 수행해, 투기 깊이가 늘어나도 초안 생성 지연이 선형으로 증가하지 않도록 설계된 방식이다. AWS는 이 기술을 오픈소스로 공개했다.

기존 EAGLE 방식에서는 K개의 초안 토큰을 만들기 위해 K번의 순차 포워드 패스가 필요했다. 각 토큰 예측이 직전 토큰의 임베딩과 히든 스테이트를 입력으로 받기 때문이다. P-EAGLE은 미래 위치에 학습 가능한 마스크 토큰 임베딩과 공유 히든 스테이트를 대입해 이 의존 관계를 끊는다. 이를 통해 K=3이든 K=7이든 단일 포워드 패스 한 번으로 초안을 생성할 수 있으며, 출력 품질은 최종 검증 단계에서 목표 모델이 모든 초안 토큰을 확인하기 때문에 표준 자기회귀 방식과 수학적으로 동일하다.

실제 성능 측면에서, NVIDIA B200 GPU에서 FP8 양자화를 적용한 Qwen3-Coder-30B-A3B-Instruct 모델 기준으로 P-EAGLE은 HumanEval 벤치마크 단일 동시 요청 환경에서 기준 대비 약 3.97배, EAGLE-3 대비 최대 1.22배의 초당 출력 토큰 수를 기록했다. SPEED-Bench Code에서는 EAGLE-3 대비 최대 1.41배 향상을 보였다. 드래프터(drafter) 헤드는 목표 모델 파라미터의 2~5% 수준에 불과해 추가 자원 부담이 크지 않다.

아마존 세이지메이커 JumpStart는 현재 GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct, Gemma-4-31B-IT 등 네 가지 모델에 P-EAGLE을 사전 구성 상태로 제공한다. 모델 허브에서 선택 후 배포 버튼을 누르면 별도의 CUDA 커널 설정이나 분산 서빙 구성 없이 P-EAGLE 가속 엔드포인트를 구동할 수 있다. AWS는 이번 통합을 통해 엔터프라이즈 환경에서 LLM 추론 비용을 낮추면서도 응답 속도를 높이는 실용적 경로를 제공한다는 입장이다.