구글(Google)이 70개 이상 언어를 실시간으로 변환하는 음성 통역 모델 제미나이 3.5 라이브 번역(Gemini 3.5 Live Translate)을 출시했다. 이 모델은 발화자가 말을 마치기를 기다리지 않고 음성 스트림이 들어오는 즉시 번역을 생성하는 연속 스트리밍 방식을 채택했다. 언어를 별도로 설정하지 않아도 자동 감지가 가능하고, 구글은 화자의 어조·속도·음조를 출력에 보존한다고 밝혔다. 생성된 음성에는 AI 생성 여부를 식별하는 신스ID(SynthID) 워터마크가 비가청 형태로 삽입된다.
서비스는 세 경로로 동시에 제공된다. 개발자는 제미나이 라이브 API와 구글 AI 스튜디오를 통해 즉시 이용 가능하며, 기업 고객은 이달부터 구글 미트(Google Meet) 비공개 프리뷰로 접근할 수 있다. 일반 사용자는 안드로이드(Android)와 iOS의 구글 번역 앱에서 사용 가능하다. 구글 미트에서는 기존 5개 언어 지원이 70개 이상으로 확대되고 회의 내 언어 조합도 2,000가지 이상으로 늘어난다. 동남아 차량 공유 서비스 그랩(Grab)은 운전자와 승객 간 소통에 이 모델을 시범 적용하고 있다.
기술적으로는 대화형 AI 에이전트와 구별되는 전용 번역 파이프라인이다. 일반적인 대화 에이전트가 발언 전환 감지와 중단 처리를 포함한 턴 기반 구조를 사용하는 것과 달리, 제미나이 3.5 라이브 번역은 연속 스트림 처리 방식을 택해 도구 호출이나 시스템 명령 기능을 지원하지 않는다. 엄격한 실시간 지연 기준을 맞추기 위해 음성 입력만 받으며, 출력은 발화자보다 몇 초 뒤처진 상태로 따라가 맥락 정확도와 즉시성 사이의 균형을 잡는다. 기업용 구글 미트는 이달 일부 비즈니스 고객 대상 비공개 프리뷰로 시작해 전면 출시는 하반기로 예정돼 있다.














