구글 딥마인드(Google DeepMind)가 16GB RAM 노트북에서 실행 가능한 멀티모달 AI 모델 ‘젬마 4 12B(Gemma 4 12B)’를 2026년 6월 3일 출시했다. 아파치 2.0(Apache 2.0) 라이선스로 공개되며 상업적 사용이 허용된다. 이 모델은 젬마 4 시리즈에서 모바일 최적화 소형 모델과 26B 혼합 전문가(Mixture of Experts) 대형 모델 사이의 빈자리를 채우는 제품으로, 중형 젬마 모델 가운데 최초로 오디오를 네이티브 처리하는 기능을 갖췄다.
젬마 4 12B의 핵심 특징은 별도의 비전·오디오 인코더를 완전히 제거한 통합 디코더 전용 아키텍처다. 이미지는 48×48픽셀 패치 단위로 분해해 단일 행렬 연산으로 LLM 은닉 차원에 투영하며, 오디오는 16kHz의 40ms 프레임을 직접 임베딩 공간에 선형 투영해 처리한다. 이로써 모델 크기 대비 처리 가능 모달리티의 범위가 넓어졌다. 벤치마크 성능은 두 배 가까이 큰 26B 모델에 근접한 수준이라고 구글 딥마인드는 밝혔다. 5분 분량의 영상을 초당 1프레임 기준 313개 프레임과 오디오를 함께 처리하는 능력도 시연됐다.
추론 스택은 llama.cpp, MLX, vLLM, 올라마(Ollama), LM Studio 등 다양한 로컬 실행 환경과 호환된다. 허깅페이스(Hugging Face)와 캐글(Kaggle)에서 모델 가중치를 내려받을 수 있으며, 명령어 수행 변형 모델 식별자는 `google/gemma-4-12B-it`이다. 구글의 자체 테스트 결과, 구글 AI 엣지 앱에서 젬마 4 12B로 전환했을 때 전반적인 품질이 60% 이상 향상된 것으로 나타났다.
저렴한 가격에 강력한 로컬 AI 추론 환경을 구축하려는 개발자와 연구자 수요가 높아지는 가운데, 젬마 4 12B는 일반 소비자 노트북에서도 멀티모달·에이전틱 워크플로우를 구현할 수 있는 현실적인 옵션으로 주목받고 있다. 구글 딥마인드는 이전 모델이 비전(550M)·오디오(300M) 인코더를 별도로 유지했던 것과 달리 이를 제거함으로써 파인튜닝 시 모달리티를 통합 갱신하는 장점을 강조했다.













