구글, 영상 생성·편집 통합 모델 '제미나이 옴니' 공개

구글, 영상 생성·편집 통합 모델 ‘제미나이 옴니’ 공개

구글이 어떤 입력으로도 무엇이든 만들어낼 수 있는 모델이라며, 옴니(Omni) 계열의 첫 모델인 ‘제미나이 옴니 플래시(Gemini Omni Flash)’를 공개했다. 영상에서 시작하는 이 모델은 제미나이 앱, 구글 플로우(Flow), 유튜브 쇼츠에 순차적으로 배포되며, 앞으로 이미지와 오디오 같은 출력 양식도 지원할 예정이다. 핵심은 영상을 자연어로 편집할 수 있다는 점이다.

옴니의 가장 큰 특징은 모든 명령이 직전 명령 위에 쌓인다는 데 있다. 사용자가 연속해서 지시를 내려도 등장인물의 외형이 일관되게 유지되고, 물리 법칙이 어긋나지 않으며, 장면이 앞서 일어난 일을 기억한다. 예를 들어 거울을 만지면 액체처럼 물결치게 하라거나, 음악에 맞춰 아파트 창문 불빛이 차례로 켜지게 하라는 식의 복합 지시도 자연어 한 줄로 적용된다.

VSDC quick video styles — 출처: Fever Dream / Wikimedia Commons / CC BY-SA 4.0

구글은 옴니가 단지 진짜처럼 보이는 장면을 만드는 데 그치지 않고, 다음에 무엇이 일어나야 하는지 추론한다고 강조했다. 물리에 대한 직관적 이해와 함께 제미나이가 보유한 역사·과학·문화적 맥락 지식을 결합해, 사실적 영상에서 의미 있는 이야기로 나아가는 간극을 메운다는 것이다. 알파벳 26자에 맞춰 각 글자로 시작하는 특이한 사물을 순서대로 보여주거나, 점토 애니메이션 스타일로 단백질 접힘을 정확히 설명하는 영상처럼 정교한 연출이 가능하다.

또한 입력 영상의 움직임을 다른 캐릭터에 입히거나, 스케치를 동작 가이드로만 활용해 실사 영상을 만들고 최종 결과에는 스케치를 노출하지 않는 등 정밀한 변환 기능도 시연됐다. 음악 비트에 맞춰 스타일이 전환되는 걷기 장면, 손이 양치식물 잎을 건드릴 때마다 동기화된 하프 소리가 나는 장면처럼 시각과 청각을 정교하게 맞추는 작업도 자연어 지시만으로 구현된다.

한국의 영상·광고·숏폼 콘텐츠 업계에 이 모델은 제작 워크플로의 판도를 바꿀 잠재력을 지닌다. 자연어만으로 장면을 일관되게 편집하고 스타일을 전환할 수 있게 되면, 전문 편집 인력 없이도 빠른 시안 제작과 반복 수정이 가능해진다. 특히 유튜브 쇼츠 등 숏폼 시장이 큰 국내 환경에서 창작자의 진입 장벽을 크게 낮출 전망이다. 다만 합성 영상의 표기와 저작권, 초상권 문제는 함께 대비해야 할 과제이며, 국내 플랫폼과 창작자도 활용 가이드라인을 미리 점검할 필요가 있다.