GLASS: 강화학습으로 TTS 음향 스타일을 자유롭게 제어하는 프레임워크

연구진이 제로샷 자기회귀 텍스트-투-스피치(TTS) 환경에서 음향 스타일을 유연하게 제어할 수 있는 프레임워크 GLASS(GRPO-Trained LoRA for Acoustic Style Steering)를 제안했다. 기존 제로샷 TTS 시스템에서는 화자 프롬프트에 화자 정체성과 말하기 속도·피치 같은 운율 속성이 뒤엉켜 있어, 스타일만 바꾸려 해도 프롬프트 자체를 교체해야 하는 한계가 있었다.

GLASS는 각 음향 속성을 보상 함수로 정의된 독립적인 제어 방향으로 취급한다. 각 제어축마다 TTS 백본 모델을 고정한 채 경량 LoRA(Low-Rank Adaptation) 어댑터를 하나씩 학습시키는데, 이때 GRPO(Group Relative Policy Optimization)를 최적화 알고리즘으로 사용한다. 말하기 속도와 평균 기본 주파수(F0)를 스타일 보상으로, 단어 오류율(WER)을 명료도 기준점으로 삼아 학습을 진행한다.

Two engineers working together to set up microphones in a sound studio for testing and recording. — 사진: ThisIsEngineering / Pexels

이 접근법의 핵심은 각 제어가 LoRA 가중치 업데이트로 표현된다는 점이다. 독립적으로 학습된 어댑터들을 선형 LoRA 산술을 통해 교환·보간·합성할 수 있어, 백본을 재학습하지 않고도 여러 스타일 제어를 조합할 수 있다. 말하기 속도와 피치 제어 실험 결과, 자연스러움과 화자 유사성·명료도를 유지하면서 목표 스타일로의 전환이 가능했으며, 독립적으로 학습된 어댑터 간 매끄러운 보간과 다중 축 합성도 구현됐다고 연구진은 밝혔다.

이 연구는 라벨 없이 보상 신호만으로 음성 스타일을 학습할 수 있다는 점에서 주목된다. 별도의 스타일 레이블 구축 비용 없이 강화학습 기반으로 스타일 제어 능력을 습득하는 방식은, 고비용의 레이블링 작업에 의존해온 기존 TTS 스타일 전이 연구와 구별된다. 모듈화된 어댑터 구조 덕분에 새로운 스타일 축을 추가할 때도 기존 어댑터 재학습 없이 확장이 가능하다는 점에서 실용적 활용 가능성이 높다는 평가다.