2026 음성합성 모델 현황: 구글·인월드·카르테시아가 선두

2026년 음성합성(TTS) 모델 시장은 지난 1년 사이 합성 음성과 실제 음성의 경계가 뚜렷하게 좁혀진 가운데, 모델별로 지연 시간·감정 표현·다국어 지원·가격이 크게 달라지면서 용도에 따른 선택이 중요해졌다. 2026년 5월 30일 기준 업계에서 가장 많이 참조하는 ELO 기반 맹목 평가 지표인 Artificial Analysis Speech Arena 리더보드는 구글 딥마인드가 2026년 4월 출시한 제미나이 3.1 Flash TTS(Gemini 3.1 Flash TTS), 인월드 AI(Inworld AI)의 리얼타임 TTS-2, 카르테시아(Cartesia)의 Sonic 3.5를 상위권으로 제시했다.

용도별 특성은 분명히 갈린다. 실시간 음성 에이전트에는 지연 시간이 최우선 지표다. 카르테시아 Sonic 3.5는 SSM(State Space Model, 상태 공간 모델) 구조를 채택해 음성 첫 출력까지 약 82밀리초를 기록했다. 인월드 TTS-1.5 Mini는 P90 기준 130밀리초 이하를 달성하며 가격 경쟁력까지 갖췄다. 반면 장편 오디오북이나 내레이션 제작에는 품질이 절대적이다. 일레븐랩스(ElevenLabs) v3는 2026년 초 정식 출시됐으며 다중 화자 대화·감정 범위에서 높은 평가를 받는다. 구글 제미나이 3.1 Flash TTS는 70개 이상 언어를 지원하고 세밀한 발화 스타일 제어가 가능하지만, 스트리밍을 지원하지 않고 32,000토큰 컨텍스트 한계가 있어 실시간 에이전트보다는 편집 작업에 적합하다는 평가가 많다.

Bearded man shouting through a red megaphone with 'No to A.I' message. — 사진: Murry Lee / Pexels

오픈 웨이트(open-weight) 부문에서는 Fish Audio S2 Pro가 Artificial Analysis 기준 ELO 1,123을 기록하며 최상위권을 형성하지만, 상업적 활용에는 별도 라이선스가 필요하다. 82M 파라미터의 경량 모델 Kokoro는 CPU에서도 구동 가능해 비용 민감한 환경에 적합하다. 전문가들은 어떤 단일 모델도 모든 사용 사례에서 우위를 점하지 못하며, 리더보드 순위는 주 단위로 변동하므로 자체 텍스트로 직접 비교 테스트가 필수적이라고 강조한다. 미스트랄의 Voxtral TTS, xAI의 자체 TTS, 알리바바의 Qwen3-TTS 등 새 진입자도 늘어나면서 TTS 시장의 경쟁 구도는 계속 빠르게 변화하고 있다.