기업 고객 응대에 쓰이는 음성 AI 에이전트가 두 언어를 번갈아 쓰는 이중 언어 화자, 즉 코드 스위칭 발화를 얼마나 정확하게 인식하는지 비교 분석한 벤치마크 연구가 공개됐다. ServiceNow AI 연구팀은 스페인어-영어, 프랑스어-영어, 캐나다 프랑스어-영어, 독일어-영어 네 언어 쌍을 대상으로 7개 최전선 자동 음성 인식(ASR) 시스템을 평가한 결과를 허깅페이스 블로그에 게재했다.
평가에 활용된 벤치마크 데이터셋은 HR·IT 서비스 시나리오의 코드 스위칭 발화 918개로 구성됐다. 연구팀은 단어 오류율(WER), 의미적 단어 오류율(SWER), 응답 오류율(AER) 세 지표로 각 모델을 측정했다. 전사 정확도에서는 ElevenLabs Scribe V2와 AssemblyAI Universal-3 Pro가 공동 1위를 차지했으며, Google Gemini 3 Flash가 바로 뒤를 따랐다. 의미 보존 지표에서는 Gemini 3 Flash가 AssemblyAI를 추월해 2위에 올랐는데, 이는 음성 이해에 최적화된 대규모 오디오 언어 모델의 특성이 반영된 결과로 분석된다. OpenAI Whisper Large V3 Turbo는 명시적인 언어 파라미터 없이 호출될 경우 코드 스위칭 음성을 영어로 번역하려는 경향이 있어 전 지표에서 최하위를 기록했다.

코드 스위칭이 추가로 유발하는 오류 비용을 분석하기 위해 연구팀은 동일 내용의 코드 스위칭 음성, 매트릭스 언어 단일 음성, 영어 단일 음성을 동시에 평가했다. 상위 모델들은 단일 언어 기준 대비 소폭의 성능 저하만을 보였고, 특히 Scribe V2는 이중 언어 기준 대비 성능이 더 높게 나타나 실질적인 강건성을 입증했다. 오류 위치 분석에서는 모든 모델과 언어 쌍에서 일관되게 영어 삽입 구간에 오류가 집중되는 패턴이 확인됐다. 이는 영어를 가장 잘 처리하는 모델들에게도 직관에 반하는 결과로, 코드 스위칭 발화에서 삽입된 언어 구간이 음소적·어휘적 전환 난이도를 높인다는 해석이 제시됐다.
연구팀은 벤치마크 데이터와 평가 하네스를 공개했다. 최선의 ASR 시스템을 선택하면 이중 언어 고객이 언어를 자연스럽게 섞어 말하더라도 의미 손실 없이 처리할 수 있다는 것이 주요 결론이다. 다만 스페인어-영어에서 좋은 성능을 보인 모델이 독일어-영어에서도 최선이라는 보장은 없어, 실제 운영 환경에서의 언어 쌍별 사전 벤치마킹이 필수적이라고 강조했다.














