구글 딥마인드, 젬마 4 QAT 체크포인트 공개…모바일용 1GB 미만 구동 가능

구글 딥마인드가 젬마(Gemma) 4 모델군을 대상으로 한 양자화 인식 훈련(QAT, Quantization-Aware Training) 체크포인트를 공개했다. 이번 릴리스는 스마트폰을 비롯한 엣지 디바이스와 소비자용 GPU에서 모델을 로컬로 구동하는 것을 겨냥한다. 지난 4월 젬마 4 출시에 이어 120억 파라미터 모델 공개 이틀 만에 나온 추가 배포다.

이번 체크포인트에서 주목할 점은 Q4_0 포맷과 새로운 모바일 전용 QAT 스키마 두 가지다. Q4_0 QAT를 적용하면 E2B 모델은 기존 BF16(16비트) 기준 9.6GB에서 3.2GB로, E4B 모델은 15GB에서 5GB로 메모리 요구량이 줄어든다. 새 모바일 포맷은 E2B 모델을 약 1GB까지 끌어내린다. 오디오·비전 인코더를 제거한 텍스트 전용 구성을 택하면 1GB 아래로도 낮출 수 있다. QAT는 훈련 과정에서 양자화를 시뮬레이션해 정밀도 손실을 모델이 스스로 보상하도록 학습시키는 방식이다. 학습 완료 후 압축하는 표준 PTQ(사후 훈련 양자화)보다 동일한 크기에서 품질을 더 잘 보존한다고 구글 측은 밝혔다. 다만 젬마 4 QAT의 구체적인 벤치마크 점수는 공개 시점에 발표되지 않았다.

Close-up of a hand holding a smartphone displaying apps on the screen against a textured background. — 사진: Andrey Matveev / Pexels

모바일 포맷의 핵심은 네 가지 기술 조합에 있다. 스케일링을 훈련 중 사전 산출해 온디바이스 연산 부담을 줄이는 정적 활성화(static activations), 모바일 가속기 설계에 맞춘 채널 단위 양자화, 토큰 생성 레이어에만 선별 적용하는 2비트 압축, 그리고 임베딩 및 KV 캐시 최적화가 결합돼 있다. 핵심 추론 레이어는 더 높은 정밀도를 유지해 성능 손실을 최소화하는 구조다. 가중치는 허깅페이스(Hugging Face)에서 배포되며, llama.cpp·올라마(Ollama)·LM Studio·vLLM·MLX·LiteRT-LM 등 주요 추론 프레임워크를 통해 사용할 수 있다.

젬마 4 QAT 공개는 온디바이스 AI 확산을 위한 구글의 연속적 행보로 읽힌다. 대형 클라우드 서버 없이도 스마트폰이나 라즈베리 파이 같은 소형 기기에서 멀티모달 LLM(대규모 언어 모델)을 구동하려는 수요가 커지는 가운데, 구글은 젬마 3에서도 QAT가 Q4_0 퍼플렉시티 저하를 54% 줄였다고 밝힌 바 있다. 이번 릴리스는 그 기술적 흐름을 4세대로 이어가는 것이다. 실제 품질 검증을 위해서는 개발자가 자신의 하드웨어와 작업 환경에서 직접 테스트하는 것이 권고된다.