구글 딥마인드가 3일 오픈소스 AI 모델 ‘젬마(Gemma) 4 12B’를 공개했다. 이 모델은 외부 클라우드 서버로 데이터를 전송하지 않고 기기 자체에서 AI 처리가 가능하도록 설계됐다. 인터넷 연결이 차단된 기업 사내망이나 오프라인 환경에서도 민감한 내부 데이터를 처리할 수 있어, 데이터 유출 방지가 필수적인 기업 시장을 주요 대상으로 한다. 약 120억 개 매개변수 규모로, 16GB VRAM 사양의 일반 업무용 노트북에서 인터넷 연결 없이 작동한다.
제한된 기기 사양에서 멀티모달 AI를 구동하는 핵심은 ‘인코더 프리(Encoder-free)’ 아키텍처다. 기존 멀티모달 AI는 이미지나 음성 데이터를 언어 모델이 이해할 수 있도록 전용 인코더 모듈을 거쳐야 했다. 젬마 4 12B는 이 인코더를 없애고 시각·청각 원시 데이터를 AI 핵심부인 LLM(대규모 언어 모델) 백본에 직접 입력하는 통합 구조를 채택했다. 처리 지연과 메모리 사용량을 함께 낮출 수 있다는 게 구글의 설명이다. 모델은 자사의 상위 26B 혼합전문가모델(MoE)에 근접한 벤치마크 성능을 기록했으며, AI가 한 번에 처리할 수 있는 정보량인 컨텍스트 윈도우는 25만 6,000토큰을 지원한다.

실용 면에서는 활용 범위와 제약이 명확하다. 별도 변환 없이 오디오 입력을 기본 지원해 오프라인 기기에서 음성을 텍스트로 변환하거나 번역하는 작업이 가능하다. 반면 기기 사양 압축에 따른 한계도 있다. 오디오 입력은 최대 30초, 비디오 분석은 최대 60초까지만 처리할 수 있다. 방대한 범용 지식을 답하는 용도보다 사내 문서 요약이나 짧은 지시 수행 같은 특화 엔진 역할에 적합하다는 평가가 나온다.
젬마 4 12B는 오픈소스로 공개돼 기업이 자체 환경에 모델을 직접 가져다 쓸 수 있다. 클라우드로 데이터를 내보내지 않으면서 AI 기능을 활용해야 하는 금융·의료·공공기관 등 데이터 유출 방지가 필수적인 규제 산업 영역에서의 수요를 겨냥한 포지셔닝으로 보인다. 범용 질의응답형 대형 모델과 달리 사내망에 갇힌 문서를 요약하고 짧은 업무 지시를 처리하는 실무 엔진으로 자리매김할 가능성이 크다.














