구글, 온디바이스 실행 가능한 멀티모달 AI 모델 젬마 4 12B 공개

구글(Google)이 일반 노트북에서 로컬 실행이 가능한 멀티모달(multimodal) AI 모델 젬마(Gemma) 4 12B를 공개했다. 이 모델은 텍스트뿐 아니라 이미지와 오디오를 함께 처리하면서 에이전틱(agentic) 워크플로를 수행할 수 있도록 설계됐다. 데이터 자동화 처리, 시각 정보 분석, 웹 콘텐츠 생성 등 복합 작업을 단일 기기에서 실행하는 것이 가능하다.

젬마 4 12B의 가장 두드러진 기술적 특징은 인코더 없는 통합 멀티모달 아키텍처다. 기존 멀티모달 모델들은 비전 인코더, 오디오 인코더를 별도로 두고 LLM(대규모 언어 모델)에 연결하는 방식을 사용했으나, 젬마 4 12B는 3,500만(35M) 파라미터 규모의 비전 임베더와 오디오 파형 직접 투영 방식을 채택해 중간 인코더를 제거했다. 단일 디코더 전용 트랜스포머(transformer) 구조로 구현된 이 방식은 지연시간 감소와 메모리 효율성 향상을 동시에 달성한다.

Woman using smartphone with blank screen, perfect for adding graphics. Outdoor lifestyle concept. — 사진: JÉSHOOTS / Pexels

온디바이스(on-device) 실행 가능성은 이 모델의 실용적 가치를 높이는 핵심 요소다. 클라우드 서버 의존 없이 사용자 기기 내에서 모델을 구동하면 네트워크 지연 없는 빠른 응답과 함께 개인 데이터가 외부로 전송되지 않는다는 장점이 있다. 커뮤니티 반응도 긍정적으로, 특히 단순 작업과 코드 설명 분야에서 성능이 우수하다는 평가가 나오고 있다. 에이전틱 AI 수요가 높아지는 가운데 로컬 환경에서 멀티모달 에이전트를 구동하려는 개발자와 기업에게 실용적인 선택지가 될 전망이다.

젬마 4 12B의 공개는 구글이 제미나이(Gemini) 계열 대형 모델과 별도로 경량화·오픈 계열 모델 라인을 적극 확장하는 전략의 연장선상에 있다. 엣지(edge) 환경과 프라이빗 클라우드에서 AI를 구동하려는 수요가 증가하는 시장 흐름을 겨냥한 것으로, 메타(Meta)의 라마(Llama) 시리즈, 마이크로소프트(Microsoft)의 파이(Phi) 시리즈 등 경량 오픈 모델 시장에서의 경쟁이 한층 가열될 것으로 예상된다.