• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

구글 LiteRT-LM, 다중 토큰 예측으로 온디바이스 추론 속도 2.2배 향상

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 06일 09시 53분
Reading Time: 1 min read
A A
Home 빅테크·기업
Share on FacebookShare on Twitter

구글이 안드로이드·iOS·웹 환경에서 대규모 언어 모델(LLM)을 실행하기 위한 온디바이스 런타임 ‘LiteRT-LM’을 공개했다. 이 프레임워크는 자사 모델 제마 4(Gemma 4)의 다중 토큰 예측(MTP·Multi-Token Prediction) 기능을 기본 지원해, 제마 4 E2B 모델에서 1.6배, E4B 모델에서 2.2배의 디코딩 속도 향상을 달성했다고 구글은 밝혔다.

LiteRT-LM은 구글이 텐서플로 라이트(TensorFlow Lite)를 리브랜딩한 LiteRT 위에 LLM 전용 오케스트레이션 계층을 추가한 구조다. 이 런타임은 제한된 메모리·연산 자원과 파편화된 하드웨어 환경을 극복하기 위해 고급 양자화 기법, XNNPACK 및 MLDrift 가속 커널을 활용한다. MTP 추론 시에는 경량 드래프터 모델과 주 모델을 동일한 하드웨어 IP(예: GPU) 위에서 실행해 교차 동기화 지연을 없앴으며, KV 캐시와 활성화 값 전체를 로컬 메모리 안에서 처리한다. 구글은 자체 벤치마크를 기준으로 프리필·디코드 성능이 llama.cpp, MLX, Cactus, ONNX 등 경쟁 프레임워크보다 1.8배에서 3.7배 빠르다고 주장했다. 약 2.58GB 크기의 제마 4 E2B 모델은 애플 모바일 CPU에서 607MB만 차지하는 수준의 메모리 효율도 확인됐다.

Macro shot of smartphone camera lens highlighting design and technology.
사진: aloïs Siclon / Pexels
A brain over cpu represents artificial intelligence.
사진: Sumaid pal Singh Bakshi / Unsplash

LiteRT-LM은 메모리 절감을 위해 레이어별 임베딩을 상시 메모리에 올리지 않고 이미지·오디오 인코더를 필요할 때만 동적으로 불러오는 방식을 택했다. KV 캐시 상태를 저장·복원해 긴 대화를 재연산 없이 이어갈 수 있는 세션 관리 기능도 갖췄다. 제마 4의 ‘씽킹 모드(Thinking Mode)’, 구조적 출력을 위한 제약적 디코딩, 함수 호출 지원 등 에이전트 기능도 기본 내장해 실행 중 일시 정지 후 도구 호출 요청을 반환하고 재개하는 흐름을 처리할 수 있다. 현재 GitHub에서 소스와 데스크톱 실험용 CLI, 모바일 앱이 제공된다. Kotlin·C++에 이어 Swift와 자바스크립트 API 지원도 추가될 예정이다.

온디바이스 LLM 추론 시장은 개인정보 보호와 응답 지연 최소화 요구가 맞물리며 경쟁이 격화되고 있다. 구글이 자사 제마 모델에 최적화된 런타임을 직접 내놓음으로써 외부 프레임워크 의존도를 낮추고 생태계 내 수직 통합을 강화하는 전략으로 해석된다. LiteRT-LM의 성능 주장이 독립 기관의 검증을 거쳐 실제 사용 환경에서도 재현되는지가 앞으로의 채택 속도를 가늠하는 관건이 될 전망이다.

Tags: Gemma4LiteRT-LM구글온디바이스AI추론최적화
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

관련 기사

Focused woman working on a computer in a busy laboratory setting, showcasing teamwork and scientific research.
빅테크·기업

앤트로픽, AI 개발 속도 늦추고 싶다…재귀적 자기개선 경고

2026년 06월 06일 11시 37분
Close-up of a textured stone rock formation, showcasing natural geological structures.
빅테크·기업

AWS, Amazon Bedrock 생성AI 운영 자동화 솔루션 Bedrock Ops Alert 공개

2026년 06월 06일 10시 55분
Overhead view of a smartwatch on an arm against a marble background representing modern technology.
빅테크·기업

구글 제미나이가 시리 차세대를 이끈다…애플 헬스케어 AI 전망

2026년 06월 06일 10시 45분
사티아 나델라 마이크로소프트 CEO
빅테크·기업

마이크로소프트, AI 경쟁서 주도권 내줬나 — 빌드 2026 전후로 논란

2026년 06월 06일 10시 19분
Next Post
A professional video editing workspace featuring monitors, keyboard, and microphones in a studio setting.

구글 '드림빈즈', 개인 데이터로 만드는 일상 맞춤 AI 스토리 앱 출시

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

  • 인기 급상승
  • 최신
A 3D rendering of a neural network with abstract neuron connections in soft colors.

퍼플렉시티, 로컬·클라우드 AI를 자동 판단하는 하이브리드 추론 시스템 발표

2026년 06월 04일 08시 53분
데이터센터 서버

구글, ‘제미나이 3.5 플래시’·AI 에이전트 ‘스파크’ 공개… 가격·사용자로 추격

2026년 06월 04일 15시 14분
책상에서 법률 문서에 서명하는 모습

앤트로픽, 클로드 에이전트 ‘드리밍’ 기능 공개… 법률·의료 AI 성능 대폭 향상

2026년 06월 04일 15시 19분
AMD EPYC 프로세서 다이(칩) 근접 촬영

AMD, 6세대 EPYC ‘베니스’ 2nm 양산 돌입… HPC 제품 최초

2026년 06월 04일 15시 19분
아마존 AWS 데이터센터 전경

아마존, ‘AI 사용량 순위표’ 폐기… 직원들 ‘토큰맥싱’에 역효과

2026년 06월 04일 15시 18분
Focused business analysis with charts and graphs on a laptop in a modern office setting.

결측치 중 ‘의미 있는 공백’ 구별하는 확산 기반 프레임워크 Diff-Joint 제안

2026년 06월 06일 12시 24분
Close-up of stainless steel pipes with pressure gauges in an industrial setting.

오토인코더로 제어 친화 축소 모델 학습하는 프레임워크 제안

2026년 06월 06일 12시 15분
Asian man working with soldering tools and microscope on electronics in a lab setting.

KOITA-NH 데모데이, 반도체·로봇·AI 딥테크 8개사 투자 유치 경연

2026년 06월 06일 11시 58분
An office meeting where a man argues with a woman over documents, causing tension.

IBM, 엔터프라이즈용 AI 개발 도구 ‘밥’ 정식 출시

2026년 06월 06일 11시 47분
Focused woman working on a computer in a busy laboratory setting, showcasing teamwork and scientific research.

앤트로픽, AI 개발 속도 늦추고 싶다…재귀적 자기개선 경고

2026년 06월 06일 11시 37분

검색

No Result
View All Result

인기 태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM Meta Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 생성AI 스타트업 아마존 앤트로픽 에이전트 에이전틱AI 엔비디아 오픈AI 오픈소스 의료AI 자율주행 젠슨황 클로드 피지컬AI

카테고리

  • AI 모델·연구 (286)
  • AI 서비스·툴 (143)
  • 반도체·인프라 (151)
  • 빅테크·기업 (136)
  • 산업 적용 (123)
  • 스타트업·투자 (76)
  • 정책·윤리 (130)

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM Meta Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 생성AI 스타트업 아마존 앤트로픽 에이전트 에이전틱AI 엔비디아 오픈AI 오픈소스 의료AI 자율주행 젠슨황 클로드 피지컬AI

최근 뉴스

Focused business analysis with charts and graphs on a laptop in a modern office setting.

결측치 중 ‘의미 있는 공백’ 구별하는 확산 기반 프레임워크 Diff-Joint 제안

2026년 06월 06일 12시 24분
Close-up of stainless steel pipes with pressure gauges in an industrial setting.

오토인코더로 제어 친화 축소 모델 학습하는 프레임워크 제안

2026년 06월 06일 12시 15분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.