음성 번역 실사용 측정 프레임워크 'Ouvia' 공개

음성 번역 실사용 측정 프레임워크 ‘Ouvia’ 공개

음성 번역(ST, Speech Translation) 시스템을 실제 의사소통 맥락에서 평가하는 프레임워크 ‘Ouvia’가 공개됐다. 연구팀은 기존 평가 방식이 실험실 환경의 추상적 품질 점수에 집중돼 있어, 실제로 번역 결과물을 사용하는 사람들의 의사소통 요구를 충분히 반영하지 못한다는 문제를 지적했다. Ouvia는 이 간극을 좁히기 위해 설계된 사용자 중심 평가 체계다.

연구팀은 영어 화자가 포르투갈어 화자에게 요청 사항을 전달하는 일대일 통역 시나리오를 설계하고, 의료 환경과 일상적 상황 두 가지 맥락을 다뤘다. 맞춤형 웹 앱과 다단계 실험 방식을 통해 4개 음성 번역 시스템으로 중개된 1,750건 이상의 실제 상호작용 데이터를 수집했다. 실험 참여자는 세 가지 영어 방언 화자와 두 가지 성별로 구성돼 인구통계적 다양성도 반영됐다.

Healthcare provider consulting a patient with a tablet, emphasizing technology in healthcare. — 사진: Cedric Fauntleroy / Pexels

연구 결과, 현대 음성 번역 시스템은 실제 대화에서 약 절반의 상호작용만 사용 가능한 수준으로 처리하는 것으로 나타났다. 또한 인구통계적 집단에 따라 체감 사용성 격차가 상당했다. 품질 측정 지표 중에서는 QA(질문-답변) 기반 평가 방식이 기존의 표준적 접근보다 실세계 사용성을 훨씬 강하게 예측하는 것으로 확인됐다. 연구팀은 이 결과가 음성 번역 평가에서 기술이 누구에게, 얼마나 잘 작동하는지를 살피는 맥락 중심 접근의 필요성을 강조한다고 밝혔다.

음성 번역은 실시간 통역 앱과 글로벌 화상회의, 다국어 고객 응대 등으로 활용 범위가 빠르게 넓어지고 있는 분야다. 그동안 이 기술의 성능은 주로 번역 정확도를 수치화한 자동 지표로 평가돼 왔으나, 실제 대화에서 의사를 제대로 전달했는지는 별개의 문제라는 지적이 꾸준히 제기됐다. Ouvia가 제시한 사용성 중심 평가는 의료처럼 오역이 치명적 결과로 이어질 수 있는 환경에서 특히 의미가 크다. 같은 시스템이라도 화자의 방언이나 성별에 따라 체감 품질이 달라진다는 점은, 음성 번역 기술을 도입하려는 기업과 공공기관이 단일 정확도 점수만으로 시스템을 선택해서는 안 된다는 시사점을 던진다.