일레븐랩스, AI 더빙 모델 Dubbing v2 출시…90개 언어 감정·억양 보존

AI 오디오 스타트업 일레븐랩스(ElevenLabs)가 원본 음성의 감정과 억양을 다국어로 재현하는 신규 AI 더빙 모델 ‘더빙 v2(Dubbing v2)’를 출시했다. 텍스트 스크립트를 기반으로 하던 기존 AI 더빙의 한계로 지적됐던 기계적 억양과 감정 손실 문제를 개선한 것이 핵심이다.

더빙 v2는 원본 음성에 담긴 감정선, 말의 높낮이, 억양, 발화 간격을 분석해 목표 언어로 자연스럽게 변환하는 방식을 채택했다. 단어 직역 방식 대신 목표 언어의 문맥에 맞는 표현으로 현지화한다. 번역 후 생성된 음성이 원본 발화의 시작·종료 타이밍에 자동으로 맞춰지는 ‘음성 타이밍 자동 조정’ 기능도 탑재했다. 영상 편집이나 강제 립싱크 작업 없이도 원본과 자연스럽게 어울리는 더빙 결과물을 얻을 수 있다. 별도의 성우 녹음 없이 화자 고유의 음색과 피치를 반영하는 ‘자동 보이스 클로닝’ 기능도 지원하며, 영어를 포함한 90개 이상의 언어로 더빙이 가능하다.

더빙 v2는 드라마·영화·애니메이션뿐 아니라 게임 캐릭터 대사, 유튜브 영상, 기업 교육 콘텐츠 등 다양한 분야에 적용할 수 있다. 번역·성우 녹음·오디오 편집 등 다단계 제작 공정을 단축해 글로벌 현지화 비용과 시간을 줄이는 효과가 기대된다. 특히 K-콘텐츠의 해외 진출 시 현지화 장벽을 낮추는 수단으로도 주목받고 있다. 현재 일레븐랩스 자체 플랫폼을 통해 즉시 이용 가능하며, 기업용 B2B API 서비스는 순차적으로 확대 제공할 예정이다.

홍상원 일레븐랩스 한국 총괄은 번역된 음성이 원본 화자가 직접 말하는 것처럼 느껴지게 하는 것이 AI 더빙 분야의 오랜 난제였다며, 감정 재현력과 싱크 조정 기능을 갖춘 더빙 v2가 국내 미디어 기업과 크리에이터의 해외 진출 장벽을 낮추는 인프라가 될 것이라고 밝혔다. AI 음성 합성 기술은 그동안 단순 텍스트 낭독 수준을 넘어 감정 표현과 화자별 음색 재현으로 빠르게 고도화돼 왔다. 다만 원본 음성을 그대로 복제하는 보이스 클로닝 기능은 무단 도용이나 딥페이크 악용 우려도 함께 안고 있어, 권리자 동의와 출처 표기 등 운영 정책이 상용화 확산의 변수로 거론된다.