합성 대화 데이터로 ASR 학습 효율 높이는 방법 제안

저자원 언어와 특수 도메인에서 자동 음성 인식(ASR·Automatic Speech Recognition) 모델을 학습시킬 때 실제 녹음 데이터 부족 문제를 합성 대화 데이터로 해소할 수 있다는 연구가 arXiv(2606.03957)에 공개됐다. 연구팀은 실제로 일어나지 않은 대화를 AI로 생성한 뒤 이를 ASR 훈련에 활용하는 파이프라인을 제안했다.

제안된 방법론은 크게 세 단계로 구성된다. 먼저 LLM(대규모 언어 모델)이 참여자 메타데이터와 함께 시나리오 수준의 대화 스크립트를 생성한다. 이어 TTS(텍스트-음성 변환) 기술이 이를 음성으로 변환하고, 화자를 구분한 시뮬레이션 대화 데이터셋을 구성한다. 연구팀은 헝가리어를 대상으로 실험한 결과, 67시간의 실제 대화 데이터와 636시간의 시뮬레이션 데이터를 결합한 경우 2700시간의 실제 대화 데이터만으로 훈련한 모델보다 더 나은 성능을 달성했다고 보고했다. 이는 적은 양의 실제 데이터에 합성 데이터를 보완하는 방식이 대규모 실제 데이터 수집보다 효율적일 수 있음을 시사한다.

A podcast recording setup with a laptop, microphone, and audio equipment indoors. — 사진: Jeremy Enns / Pexels

이 연구의 함의는 데이터 수집 비용이 높거나 민감 정보 제한이 있는 분야에서 특히 크다. ASR 훈련용 실제 음성 데이터는 화자의 동의 취득, 녹음 환경 통제, 전사(轉寫) 비용 등으로 인해 수집이 까다롭다. 의료·법률 등 전문 도메인이나 방언·소수 언어처럼 녹음 자료가 희소한 환경에서 합성 대화 파이프라인이 실용적인 대안이 될 수 있다. 한편 ASR 모델 품질은 의료 기록 자동화, 통화 분석, 접근성 도구 등 다양한 하위 애플리케이션에 직접 영향을 미쳐 업계 관심이 높다.

다만 TTS 음성의 자연스러움과 실제 화자 다양성을 얼마나 충실히 반영할 수 있는지, 합성 데이터의 도메인과 모델이 배포될 실제 환경 간의 분포 차이가 성능에 어떤 영향을 미치는지는 추가 검증이 필요한 과제다. 연구팀은 시나리오 생성 시 메타데이터를 활용해 화자 다양성을 높이는 방향으로 이 문제를 완화하려 했다고 밝혔다. 합성 데이터의 활용이 AI 학습 전반으로 확산되는 흐름에서 이번 ASR 연구는 데이터 희소 문제를 가진 모든 분야에 참고가 될 접근법을 제시했다는 평가다.