• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

구글 딥마인드, 젬마 4 QAT 체크포인트 공개…모바일용 1GB 미만 구동 가능

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 06일 16시 29분
Reading Time: 1 min read
A A
Home 빅테크·기업
Share on FacebookShare on Twitter

구글 딥마인드가 젬마(Gemma) 4 모델군을 대상으로 한 양자화 인식 훈련(QAT, Quantization-Aware Training) 체크포인트를 공개했다. 이번 릴리스는 스마트폰을 비롯한 엣지 디바이스와 소비자용 GPU에서 모델을 로컬로 구동하는 것을 겨냥한다. 지난 4월 젬마 4 출시에 이어 120억 파라미터 모델 공개 이틀 만에 나온 추가 배포다.

이번 체크포인트에서 주목할 점은 Q4_0 포맷과 새로운 모바일 전용 QAT 스키마 두 가지다. Q4_0 QAT를 적용하면 E2B 모델은 기존 BF16(16비트) 기준 9.6GB에서 3.2GB로, E4B 모델은 15GB에서 5GB로 메모리 요구량이 줄어든다. 새 모바일 포맷은 E2B 모델을 약 1GB까지 끌어내린다. 오디오·비전 인코더를 제거한 텍스트 전용 구성을 택하면 1GB 아래로도 낮출 수 있다. QAT는 훈련 과정에서 양자화를 시뮬레이션해 정밀도 손실을 모델이 스스로 보상하도록 학습시키는 방식이다. 학습 완료 후 압축하는 표준 PTQ(사후 훈련 양자화)보다 동일한 크기에서 품질을 더 잘 보존한다고 구글 측은 밝혔다. 다만 젬마 4 QAT의 구체적인 벤치마크 점수는 공개 시점에 발표되지 않았다.

Close-up of a hand holding a smartphone displaying apps on the screen against a textured background.
사진: Andrey Matveev / Pexels

모바일 포맷의 핵심은 네 가지 기술 조합에 있다. 스케일링을 훈련 중 사전 산출해 온디바이스 연산 부담을 줄이는 정적 활성화(static activations), 모바일 가속기 설계에 맞춘 채널 단위 양자화, 토큰 생성 레이어에만 선별 적용하는 2비트 압축, 그리고 임베딩 및 KV 캐시 최적화가 결합돼 있다. 핵심 추론 레이어는 더 높은 정밀도를 유지해 성능 손실을 최소화하는 구조다. 가중치는 허깅페이스(Hugging Face)에서 배포되며, llama.cpp·올라마(Ollama)·LM Studio·vLLM·MLX·LiteRT-LM 등 주요 추론 프레임워크를 통해 사용할 수 있다.

젬마 4 QAT 공개는 온디바이스 AI 확산을 위한 구글의 연속적 행보로 읽힌다. 대형 클라우드 서버 없이도 스마트폰이나 라즈베리 파이 같은 소형 기기에서 멀티모달 LLM(대규모 언어 모델)을 구동하려는 수요가 커지는 가운데, 구글은 젬마 3에서도 QAT가 Q4_0 퍼플렉시티 저하를 54% 줄였다고 밝힌 바 있다. 이번 릴리스는 그 기술적 흐름을 4세대로 이어가는 것이다. 실제 품질 검증을 위해서는 개발자가 자신의 하드웨어와 작업 환경에서 직접 테스트하는 것이 권고된다.

Tags: GemmaQAT구글 딥마인드모델경량화온디바이스AI
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

관련 기사

Close-up of a hand using a smartphone in the dark with blurred city lights in the background.
빅테크·기업

중국 AI 챗봇 더우바오, 유료화 루머로 월 이용자 610만 명 이탈

2026년 06월 06일 17시 10분
Close-up view of a camera monitor displaying captured footage with detailed settings.
빅테크·기업

xAI, Grok Imagine 1.5 출시…이미지를 720p 동영상으로 변환

2026년 06월 06일 16시 51분
Masked individual in dark room interacting with computer screens displaying hacker imagery and code.
빅테크·기업

메타 AI 고객지원 에이전트 해킹, AI 보안 취약점 경각심 높여

2026년 06월 06일 16시 00분
Top-down view of an organized modern desk setup featuring Apple devices and accessories.
빅테크·기업

구글, 5월 AI 총정리: 제미나이 3.5·Omni·안드로이드 헤일로 등 대거 공개

2026년 06월 06일 15시 48분
Next Post
A man with a prosthetic hand gently touches a woman's face in a cyberpunk setting.

AI로 흥행 시나리오 예측한다는 스타트업 퀼티, 신뢰성 논란

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

  • 인기 급상승
  • 최신
A 3D rendering of a neural network with abstract neuron connections in soft colors.

퍼플렉시티, 로컬·클라우드 AI를 자동 판단하는 하이브리드 추론 시스템 발표

2026년 06월 04일 08시 53분
데이터센터 서버

구글, ‘제미나이 3.5 플래시’·AI 에이전트 ‘스파크’ 공개… 가격·사용자로 추격

2026년 06월 04일 15시 14분
책상에서 법률 문서에 서명하는 모습

앤트로픽, 클로드 에이전트 ‘드리밍’ 기능 공개… 법률·의료 AI 성능 대폭 향상

2026년 06월 04일 15시 19분
AMD EPYC 프로세서 다이(칩) 근접 촬영

AMD, 6세대 EPYC ‘베니스’ 2nm 양산 돌입… HPC 제품 최초

2026년 06월 04일 15시 19분
아마존 AWS 데이터센터 전경

아마존, ‘AI 사용량 순위표’ 폐기… 직원들 ‘토큰맥싱’에 역효과

2026년 06월 04일 15시 18분
A modern urban building surrounded by colorful autumn trees in a cityscape setting.

이재명 정부 AI 3강 1년 중간점검: AIDC법·GPU 확보 성과, 부처 협업은 과제

2026년 06월 06일 17시 52분
Close-up of a hand using a smart display showing a recipe for brownie cakes in a store setting.

AI가 외식업 컨설턴트로…할루시네이션 줄이는 질문법이 관건

2026년 06월 06일 17시 40분
Close-up of a futuristic toy robot with blue eyes, showcasing modern technology indoors.

황정아 의원, 피지컬 AI 특별법 발의…규제 원스톱 완화

2026년 06월 06일 17시 37분
A robotic dog stands indoors, showcasing advanced technology with a sleek design.

앤트로픽, 재귀적 자기 개선 우려로 AI 개발 속도 조절 국제 합의 촉구

2026년 06월 06일 17시 27분
close up of dark blue circuit board

에이디테크놀로지, AI 반도체 수요 대응 설계 엔지니어 50명 채용

2026년 06월 06일 17시 23분

검색

No Result
View All Result

인기 태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI인프라 AI정책 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM Meta Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 로보틱스 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 생성AI 스타트업 앤트로픽 에이전트 에이전틱AI 엔비디아 오픈AI 오픈소스 온디바이스AI 의료AI 자율주행 젠슨황 피지컬AI

카테고리

  • AI 모델·연구 (296)
  • AI 서비스·툴 (149)
  • 반도체·인프라 (156)
  • 빅테크·기업 (144)
  • 산업 적용 (124)
  • 스타트업·투자 (78)
  • 정책·윤리 (141)

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI인프라 AI정책 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM Meta Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 로보틱스 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 생성AI 스타트업 앤트로픽 에이전트 에이전틱AI 엔비디아 오픈AI 오픈소스 온디바이스AI 의료AI 자율주행 젠슨황 피지컬AI

최근 뉴스

A modern urban building surrounded by colorful autumn trees in a cityscape setting.

이재명 정부 AI 3강 1년 중간점검: AIDC법·GPU 확보 성과, 부처 협업은 과제

2026년 06월 06일 17시 52분
Close-up of a hand using a smart display showing a recipe for brownie cakes in a store setting.

AI가 외식업 컨설턴트로…할루시네이션 줄이는 질문법이 관건

2026년 06월 06일 17시 40분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책
  • 정정·반론 보도 안내
  • 편집·윤리강령

스토리움(STORIUM)  |  상호: [[상호]]  |  대표: [[대표자명]]  |  사업자등록번호: [[000-00-00000]]
인터넷신문 등록번호: [[등록 후 입력]]  |  발행인: [[발행인]]  |  편집인: [[편집인]]  |  청소년보호책임자: STORIUM 편집부
주소: [[사업장 주소]]  |  이메일: lee.kkhwan@gmail.com
© 2026 STORIUM. All Rights Reserved.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

스토리움(STORIUM)  |  상호: [[상호]]  |  대표: [[대표자명]]  |  사업자등록번호: [[000-00-00000]]
인터넷신문 등록번호: [[등록 후 입력]]  |  발행인: [[발행인]]  |  편집인: [[편집인]]  |  청소년보호책임자: STORIUM 편집부
주소: [[사업장 주소]]  |  이메일: lee.kkhwan@gmail.com
© 2026 STORIUM. All Rights Reserved.