마이크로소프트, 다국어 음성 인식 모델 MAI-Transcribe-1.5 공개

마이크로소프트 AI가 다국어 음성 인식 모델 MAI-Transcribe-1.5를 공개했다. 이번 모델은 Artificial Analysis 리더보드에서 단어 오류율(WER, Word Error Rate) 2.4%를 기록해 전체 3위에 올랐으며, FLEURS 다국어 벤치마크에서는 43개 언어에 걸쳐 최고 수준의 정확도를 달성했다. 지원 언어 수는 이전 MAI-Transcribe-1의 25개에서 크게 확대됐다.

처리 속도 측면에서도 뚜렷한 개선이 이뤄졌다. 1시간 분량의 오디오를 15초 이내에 처리할 수 있으며, 장문 오디오 추론 속도는 전작 대비 최대 5.7배 빨라졌다. 구글 Gemini 계열, Scribe v2, GPT-4o-Transcribe 등 경쟁 모델과 비교해도 최대 5배의 속도 우위를 보인다. 실시간성이 중요한 기업 환경에서 대용량 음성 데이터를 처리할 때 실질적 이점이 기대된다.

Close-up of a professional studio microphone with a bokeh backdrop, ideal for music and podcast imagery. — 사진: Clement Lepetit / Pexels

MAI-Transcribe-1.5는 최대 200개의 도메인 특화 키워드를 지정할 수 있는 키워드 편향(Entity Biasing) 기능도 탑재했다. 이 기능을 적용하면 FLEURS 기준 WER을 추가로 30% 낮출 수 있다고 마이크로소프트는 밝혔다. 법률·의료·금융처럼 전문 용어가 밀집한 분야에서 인식 정확도를 높이는 데 유용하게 쓰일 수 있다.

다만 한계도 분명하다. MAI-Transcribe-1.5는 아직 화자 분리(diarization)를 지원하지 않아 누가 말했는지 구분하는 화자 라벨을 제공하지 못하며, 네이티브 스트리밍 API가 없어 실시간 처리 용도는 제한적이다. 정확도·속도·비용 관련 수치 상당수가 마이크로소프트 자체 측정치라는 점, Artificial Analysis 리더보드에서는 두 경쟁 모델에 밀려 3위라는 점도 함께 고려해야 한다. 마이크로소프트가 이번 모델을 통해 속도와 다국어 정확도 두 축을 강화한 것은 애저(Azure) 플랫폼 기반 음성 서비스의 경쟁력을 끌어올리려는 전략으로 풀이된다. 한국어를 포함한 다국어 지원 확대로 국내 기업의 애저 음성 API 도입 시 선택지도 넓어질 전망이다.