ModeratorLM, 다자 음성 대화에서 역할 기반 발화권 적응 달성

연구팀이 다자 음성 대화에서 실시간 발화권(turn-taking) 관리를 위한 역할 기반 음성 에이전트 ModeratorLM을 제안했다. 다수의 참여자가 동시에 발언권을 경쟁하는 역동적 대화 상황에서 에이전트가 어떤 역할을 맡느냐에 따라 발화권 행동을 조건화할 수 있는 시스템이다. 음성 LLM(대규모 언어 모델)을 청크 단위 스트리밍 방식으로 운용하는 구조 위에 구축됐다.

연구팀은 추가로 대화 맥락과 부여된 역할에 대해 사고 연쇄(chain-of-thought) 추론을 통합한 추론 강화 변형 모델도 개발했다. 합성 데이터셋 RolePlayConv는 다양한 어시스턴트 역할을 갖춘 대규모 다자 음성 대화로 구성됐다. 실제 회의 데이터와 RolePlayConv에서의 실험 결과, 역할 조건을 적용하지 않은 기준 모델 대비 발화권 정밀도가 40% 이상, 재현율이 70% 이상 향상됐으며 오발화 인터럽션도 대폭 줄었다.

Group of call center agents working together in a modern office setting. — 사진: Mikhail Nilov / Pexels

발화권 관리가 어려운 이유는 여러 참여자가 동시에 발언권을 두고 경쟁하는 역동적 상황과 사용자마다 다른 기대치가 맞물리기 때문이다. 연구팀은 이를 정면으로 다루기 위해 발언이 짧은 단위로 끊겨 들어오는 청크 단위 스트리밍 구조를 택했고, 여기에 역할 조건을 결합해 에이전트가 자신의 역할에 맞는 시점에만 개입하도록 설계했다. 사고 연쇄 추론을 더한 변형 모델은 대화 맥락과 역할을 함께 고려해 언제 말을 시작하고 멈출지를 판단한다.

다자 음성 대화에서의 발화권 관리는 음성 AI 에이전트가 실제 회의·콜센터·교육 환경에 진입하기 위한 핵심 과제로 꼽힌다. 이전까지 대부분의 음성 에이전트는 일대일 대화를 전제로 설계돼 복수 참여자 환경에서 오류율이 높았다. ModeratorLM은 역할을 명시적으로 지정함으로써 맥락 인식을 높이고 불필요한 끼어들기를 억제하는 방향을 제시하며, 다자 음성 인터페이스 연구에 새로운 방향을 제안한다.