구글 LiteRT-LM, 다중 토큰 예측으로 온디바이스 추론 속도 2.2배 향상

구글이 안드로이드·iOS·웹 환경에서 대규모 언어 모델(LLM)을 실행하기 위한 온디바이스 런타임 ‘LiteRT-LM’을 공개했다. 이 프레임워크는 자사 모델 제마 4(Gemma 4)의 다중 토큰 예측(MTP·Multi-Token Prediction) 기능을 기본 지원해, 제마 4 E2B 모델에서 1.6배, E4B 모델에서 2.2배의 디코딩 속도 향상을 달성했다고 구글은 밝혔다.

LiteRT-LM은 구글이 텐서플로 라이트(TensorFlow Lite)를 리브랜딩한 LiteRT 위에 LLM 전용 오케스트레이션 계층을 추가한 구조다. 이 런타임은 제한된 메모리·연산 자원과 파편화된 하드웨어 환경을 극복하기 위해 고급 양자화 기법, XNNPACK 및 MLDrift 가속 커널을 활용한다. MTP 추론 시에는 경량 드래프터 모델과 주 모델을 동일한 하드웨어 IP(예: GPU) 위에서 실행해 교차 동기화 지연을 없앴으며, KV 캐시와 활성화 값 전체를 로컬 메모리 안에서 처리한다. 구글은 자체 벤치마크를 기준으로 프리필·디코드 성능이 llama.cpp, MLX, Cactus, ONNX 등 경쟁 프레임워크보다 1.8배에서 3.7배 빠르다고 주장했다. 약 2.58GB 크기의 제마 4 E2B 모델은 애플 모바일 CPU에서 607MB만 차지하는 수준의 메모리 효율도 확인됐다.

Macro shot of smartphone camera lens highlighting design and technology. — 사진: aloïs Siclon / Pexels

A brain over cpu represents artificial intelligence. — 사진: Sumaid pal Singh Bakshi / Unsplash

LiteRT-LM은 메모리 절감을 위해 레이어별 임베딩을 상시 메모리에 올리지 않고 이미지·오디오 인코더를 필요할 때만 동적으로 불러오는 방식을 택했다. KV 캐시 상태를 저장·복원해 긴 대화를 재연산 없이 이어갈 수 있는 세션 관리 기능도 갖췄다. 제마 4의 ‘씽킹 모드(Thinking Mode)’, 구조적 출력을 위한 제약적 디코딩, 함수 호출 지원 등 에이전트 기능도 기본 내장해 실행 중 일시 정지 후 도구 호출 요청을 반환하고 재개하는 흐름을 처리할 수 있다. 현재 GitHub에서 소스와 데스크톱 실험용 CLI, 모바일 앱이 제공된다. Kotlin·C++에 이어 Swift와 자바스크립트 API 지원도 추가될 예정이다.

온디바이스 LLM 추론 시장은 개인정보 보호와 응답 지연 최소화 요구가 맞물리며 경쟁이 격화되고 있다. 구글이 자사 제마 모델에 최적화된 런타임을 직접 내놓음으로써 외부 프레임워크 의존도를 낮추고 생태계 내 수직 통합을 강화하는 전략으로 해석된다. LiteRT-LM의 성능 주장이 독립 기관의 검증을 거쳐 실제 사용 환경에서도 재현되는지가 앞으로의 채택 속도를 가늠하는 관건이 될 전망이다.