구글 딥마인드, 영상 생성 통합 모델 '제미나이 옴니 플래시' 공개

구글 딥마인드, 영상 생성 통합 모델 ‘제미나이 옴니 플래시’ 공개

구글 딥마인드(Google DeepMind)가 5월 19일(현지시간) 개막한 구글 I/O 2026에서 ‘제미나이 옴니 플래시(Gemini Omni Flash)’를 발표했다. 텍스트·이미지·오디오·영상 등 어떤 입력 조합에서도 영상을 생성할 수 있는 통합 멀티모달(any-to-any multimodal) 모델로, 5월 20일부터 전 세계 유료 구독자를 대상으로 순차 제공이 시작됐다.

제미나이 옴니 플래시는 기존 영상 생성 모델 베오(Veo)와 별개로 제공되며, 세부 아키텍처는 공개되지 않았다. 구글에 따르면 이 모델은 제미나이의 언어 이해 능력과 생성 미디어 기술을 결합해 중력·운동 에너지·유체 역학 등 물리 시뮬레이션을 영상에 반영할 수 있으며, 여러 차례 대화식 편집을 거쳐도 인물 외형과 목소리의 일관성이 유지된다. 현재 단일 클립 최대 출력 길이는 10초로 제한돼 있으며, 이는 모델의 기술적 한계가 아닌 배포 단계의 결정이라고 구글은 설명했다. 음성·음성 편집 기능은 안전성 검토가 완료되지 않아 이번 출시에서 제외됐다.

텍스트-이미지 확산 모델의 픽셀 생성 프로세스를 시각화한 AI 3D 일러스트 — 사진: Google DeepMind / Pexels (Visualising AI 프로젝트, Linus Zoll 제작)

접근 방식은 구독 요금제에 따라 구분된다. 구글 AI 플러스(AI Plus) 이상 구독자는 제미나이 앱과 영상 제작 도구 구글 플로(Google Flow)를 통해 이용할 수 있으며, 유튜브 쇼츠(YouTube Shorts) 리믹스 기능과 유튜브 크리에이트(YouTube Create) 앱에서는 만 18세 이상 사용자에게 무료로 제공된다. 개발자·기업용 API는 수 주 내 추가 공개 예정이다. 모든 생성 영상에는 SynthID 디지털 워터마크가 자동으로 삽입되며, 제미나이 앱·크롬·구글 검색에서 진위 여부를 확인할 수 있다.

이번 발표는 영상 생성 AI가 독립 앱에서 검색·메신저·숏폼 플랫폼이 결합된 통합 생태계로 편입되는 흐름을 보여준다. 유튜브 쇼츠 무료 제공으로 국내 크리에이터와 미디어 업계는 별도 도구 도입 없이 AI 영상 생성에 즉시 접근할 수 있게 됐다. 한편 국내에서는 딥페이크 영상물 규제가 강화되는 추세여서, SynthID 워터마크의 탐지 범위와 법적 효력에 대한 논의가 병행될 것으로 보인다. 구글은 목소리 편집 등 오용 위험이 높은 기능을 의도적으로 보류한 만큼, 향후 기능 확장 속도가 규제 논의에 영향을 미칠 전망이다.