오픈AI, 실시간 음성 번역·전사 모델 3종 출시…콜 성공률 69→95%

오픈AI(OpenAI)가 실시간 음성 처리에 특화된 모델 3종을 출시했다. ‘GPT-Realtime-2’는 GPT-5에 준하는 추론 성능을 갖추고 최대 12만 8000(128K) 토큰의 문맥을 처리하며, 오디오 이해 벤치마크인 Big Bench Audio에서 96.6%를 기록했다. ‘GPT-Realtime-Translate’는 70개 언어 입력을 받아 13개 언어로 실시간 출력하며 분당 0.034달러에 제공된다. ‘GPT-Realtime-Whisper’는 음성을 실시간으로 텍스트로 변환하는 스트리밍 전사 모델로 분당 0.017달러다.

실제 적용 사례로는 부동산 정보 플랫폼 질로(Zillow)의 도입 결과가 공개됐다. 질로는 고객 상담 콜센터에 GPT-Realtime-2를 도입한 이후 통화 성공률이 69%에서 95%로 크게 높아졌다고 밝혔다. AI가 고객 질문을 실시간으로 이해하고 정확한 응답을 제공함으로써 통화 완료율과 고객 만족도 모두 개선됐다는 분석이다.

이번 3종 모델 출시는 오픈AI가 텍스트 기반 AI를 넘어 음성 인터페이스 시장을 적극 공략하겠다는 전략을 보여준다. 특히 실시간 번역 모델은 다국어 고객 응대, 국제 화상 회의, 여행·관광 서비스 등 다양한 산업에서 즉각적인 수요가 예상된다. 70개 언어 입력을 지원하는 만큼 글로벌 콘텍스트센터 운영 기업에게 특히 유용한 도구가 될 전망이다.

음성 AI 시장은 텍스트 AI 다음으로 빠르게 성장하는 영역이다. 일레븐랩스, 어셈블리AI(AssemblyAI), 딥그램(Deepgram) 등 음성 AI 전문 기업이 각축하는 시장에 오픈AI가 GPT-5급 추론을 결합한 모델로 진입함으로써 경쟁 구도가 재편될 것으로 보인다. 특히 추론 능력이 실시간 음성 처리와 결합되면 단순 전사를 넘어 문맥 이해 기반의 지능형 응대가 가능해진다.

국내 콜센터와 고객 응대 시장도 이번 모델 출시의 직접적인 영향권에 있다. 한국 기업들은 오랫동안 고비용 인력 기반의 콜센터를 운영해왔으며, AI 음성 모델의 품질이 충분히 높아지면 대규모 전환이 일어날 수 있다. 다만 한국어 지원 수준과 감성적 공감 능력이 실제 현장 도입의 관건이 될 것이고, 노동 전환에 따른 사회적 논의도 병행돼야 한다.