• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

구글 딥마인드, 젬마 4 QAT 체크포인트 공개…모바일용 1GB 미만 구동 가능

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 06일 16시 29분
Reading Time: 1 min read
A A
Home 빅테크·기업
Share on FacebookShare on Twitter

구글 딥마인드가 젬마(Gemma) 4 모델군을 대상으로 한 양자화 인식 훈련(QAT, Quantization-Aware Training) 체크포인트를 공개했다. 이번 릴리스는 스마트폰을 비롯한 엣지 디바이스와 소비자용 GPU에서 모델을 로컬로 구동하는 것을 겨냥한다. 지난 4월 젬마 4 출시에 이어 120억 파라미터 모델 공개 이틀 만에 나온 추가 배포다.

이번 체크포인트에서 주목할 점은 Q4_0 포맷과 새로운 모바일 전용 QAT 스키마 두 가지다. Q4_0 QAT를 적용하면 E2B 모델은 기존 BF16(16비트) 기준 9.6GB에서 3.2GB로, E4B 모델은 15GB에서 5GB로 메모리 요구량이 줄어든다. 새 모바일 포맷은 E2B 모델을 약 1GB까지 끌어내린다. 오디오·비전 인코더를 제거한 텍스트 전용 구성을 택하면 1GB 아래로도 낮출 수 있다. QAT는 훈련 과정에서 양자화를 시뮬레이션해 정밀도 손실을 모델이 스스로 보상하도록 학습시키는 방식이다. 학습 완료 후 압축하는 표준 PTQ(사후 훈련 양자화)보다 동일한 크기에서 품질을 더 잘 보존한다고 구글 측은 밝혔다. 다만 젬마 4 QAT의 구체적인 벤치마크 점수는 공개 시점에 발표되지 않았다.

Close-up of a hand holding a smartphone displaying apps on the screen against a textured background.
사진: Andrey Matveev / Pexels

모바일 포맷의 핵심은 네 가지 기술 조합에 있다. 스케일링을 훈련 중 사전 산출해 온디바이스 연산 부담을 줄이는 정적 활성화(static activations), 모바일 가속기 설계에 맞춘 채널 단위 양자화, 토큰 생성 레이어에만 선별 적용하는 2비트 압축, 그리고 임베딩 및 KV 캐시 최적화가 결합돼 있다. 핵심 추론 레이어는 더 높은 정밀도를 유지해 성능 손실을 최소화하는 구조다. 가중치는 허깅페이스(Hugging Face)에서 배포되며, llama.cpp·올라마(Ollama)·LM Studio·vLLM·MLX·LiteRT-LM 등 주요 추론 프레임워크를 통해 사용할 수 있다.

젬마 4 QAT 공개는 온디바이스 AI 확산을 위한 구글의 연속적 행보로 읽힌다. 대형 클라우드 서버 없이도 스마트폰이나 라즈베리 파이 같은 소형 기기에서 멀티모달 LLM(대규모 언어 모델)을 구동하려는 수요가 커지는 가운데, 구글은 젬마 3에서도 QAT가 Q4_0 퍼플렉시티 저하를 54% 줄였다고 밝힌 바 있다. 이번 릴리스는 그 기술적 흐름을 4세대로 이어가는 것이다. 실제 품질 검증을 위해서는 개발자가 자신의 하드웨어와 작업 환경에서 직접 테스트하는 것이 권고된다.

Tags: GemmaQAT구글 딥마인드모델경량화온디바이스AI
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

관련 기사

IT professional working on a computer in a modern office setting, focused on coding and tasks.
빅테크·기업

드롭박스, AI 코딩 에이전트 운영 플랫폼 ‘노바’ 공개

2026년 06월 06일 18시 46분
Hand holding a brass padlock, symbolizing security and protection
빅테크·기업

OpenAI, 프롬프트 인젝션 차단 ‘잠금 모드’ 출시

2026년 06월 06일 18시 17분
Close-up of a hand using a smartphone in the dark with blurred city lights in the background.
빅테크·기업

중국 AI 챗봇 더우바오, 유료화 루머로 월 이용자 610만 명 이탈

2026년 06월 06일 17시 10분
Close-up view of a camera monitor displaying captured footage with detailed settings.
빅테크·기업

xAI, Grok Imagine 1.5 출시…이미지를 720p 동영상으로 변환

2026년 06월 06일 16시 51분
Next Post
A man with a prosthetic hand gently touches a woman's face in a cyberpunk setting.

AI로 흥행 시나리오 예측한다는 스타트업 퀼티, 신뢰성 논란

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

  • 인기 급상승
  • 최신
A 3D rendering of a neural network with abstract neuron connections in soft colors.

퍼플렉시티, 로컬·클라우드 AI를 자동 판단하는 하이브리드 추론 시스템 발표

2026년 06월 04일 08시 53분
데이터센터 서버

구글, ‘제미나이 3.5 플래시’·AI 에이전트 ‘스파크’ 공개… 가격·사용자로 추격

2026년 06월 04일 15시 14분
책상에서 법률 문서에 서명하는 모습

앤트로픽, 클로드 에이전트 ‘드리밍’ 기능 공개… 법률·의료 AI 성능 대폭 향상

2026년 06월 04일 15시 19분
AMD EPYC 프로세서 다이(칩) 근접 촬영

AMD, 6세대 EPYC ‘베니스’ 2nm 양산 돌입… HPC 제품 최초

2026년 06월 04일 15시 19분
아마존 AWS 데이터센터 전경

아마존, ‘AI 사용량 순위표’ 폐기… 직원들 ‘토큰맥싱’에 역효과

2026년 06월 04일 15시 18분
A robotic arm and a bearded man engaged in a strategic chess game highlighting technology and innovation.

리드 호프만, 마이크로소프트 이사회 떠나 AI 신약 스타트업 집중

2026년 06월 06일 19시 15분
Close-up of illuminated fiber optic lights in blue and green colors, showcasing modern technology.

파운데이션 모델 NEXUS, AWS SageMaker에서 정형 데이터 예측 지원

2026년 06월 06일 19시 11분
Dynamic close-up shot of illuminated gaming graphics card fans in red light, showcasing cutting-edge technology.

AWS, SOCI 기술로 딥러닝 컨테이너 콜드 스타트 시간 20배 단축

2026년 06월 06일 19시 02분
Detailed view of a black data storage unit highlighting modern technology and data management.

EDB, 오라클 탈피 넘어 AI 데이터 플랫폼으로 전략 전환

2026년 06월 06일 18시 58분
IT professional working on a computer in a modern office setting, focused on coding and tasks.

드롭박스, AI 코딩 에이전트 운영 플랫폼 ‘노바’ 공개

2026년 06월 06일 18시 46분

검색

No Result
View All Result

인기 태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 AI정책 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM Meta Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 생성AI 스타트업 앤트로픽 에이전트 에이전틱AI 엔비디아 오픈AI 오픈소스 온디바이스AI 의료AI 자율주행 젠슨황 피지컬AI

카테고리

  • AI 모델·연구 (299)
  • AI 서비스·툴 (150)
  • 반도체·인프라 (159)
  • 빅테크·기업 (146)
  • 산업 적용 (125)
  • 스타트업·투자 (80)
  • 정책·윤리 (142)

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI반도체 AI보안 AI안전 AI에이전트 AI 에이전트 AI인프라 AI정책 Anthropic arXiv AWS ChatGPT Claude Gemini IPO LLM Meta Microsoft NVIDIA OpenAI 강화학습 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 생성AI 스타트업 앤트로픽 에이전트 에이전틱AI 엔비디아 오픈AI 오픈소스 온디바이스AI 의료AI 자율주행 젠슨황 피지컬AI

최근 뉴스

A robotic arm and a bearded man engaged in a strategic chess game highlighting technology and innovation.

리드 호프만, 마이크로소프트 이사회 떠나 AI 신약 스타트업 집중

2026년 06월 06일 19시 15분
Close-up of illuminated fiber optic lights in blue and green colors, showcasing modern technology.

파운데이션 모델 NEXUS, AWS SageMaker에서 정형 데이터 예측 지원

2026년 06월 06일 19시 11분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책
  • 정정·반론 보도 안내
  • 편집·윤리강령

스토리움(STORIUM)  |  상호: [[상호]]  |  대표: [[대표자명]]  |  사업자등록번호: [[000-00-00000]]
인터넷신문 등록번호: [[등록 후 입력]]  |  발행인: [[발행인]]  |  편집인: [[편집인]]  |  청소년보호책임자: STORIUM 편집부
주소: [[사업장 주소]]  |  이메일: lee.kkhwan@gmail.com
© 2026 STORIUM. All Rights Reserved.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

스토리움(STORIUM)  |  상호: [[상호]]  |  대표: [[대표자명]]  |  사업자등록번호: [[000-00-00000]]
인터넷신문 등록번호: [[등록 후 입력]]  |  발행인: [[발행인]]  |  편집인: [[편집인]]  |  청소년보호책임자: STORIUM 편집부
주소: [[사업장 주소]]  |  이메일: lee.kkhwan@gmail.com
© 2026 STORIUM. All Rights Reserved.