0.4초마다 말할지 판단하는 오픈소스 음성 AI 모델 공개

중국·홍콩·싱가포르 공동 연구팀이 오디오 스트림을 끊임없이 청취하면서 0.4초마다 응답 여부를 스스로 결정하는 음성 AI 모델 ‘Audio-Interaction’을 공개했다. 이 모델은 대화·번역·전사(음성을 텍스트로 변환)·주변 소리 인식을 단일 시스템 안에서 동시에 처리하며, 30억(3B) 파라미터 규모로 설계됐다. 코드와 모델 가중치는 상업 활용 제한이 없는 아파치 2.0 라이선스로 깃허브에 공개됐다.

기존 GPT-4o나 Qwen 3.5-Omni 같은 오디오 모델은 사용자가 발화를 멈춰야 비로소 응답을 생성하는 ‘녹음 후 처리’ 방식을 따른다. 실시간 스트리밍이 가능한 시스템도 일부 존재하지만 대화·번역·소리 인식 중 하나의 과제만 수행할 수 있었다. Audio-Interaction은 오디오 스트림을 0.4초 단위 청크(chunk)로 나눠 각 청크 직후 ‘silent’ 또는 ‘response’ 토큰 중 하나를 출력하는 방식으로 이 한계를 극복했다. 0.2초로 줄이면 대화 문맥이 부족해 성능이 떨어지고, 0.8초로 늘리면 응답 지연이 786밀리초까지 치솟아 0.4초가 최적 균형점으로 도출됐다. 입력 오디오 처리와 응답 생성을 병렬 큐(queue) 구조로 분리한 덕분에 첫 응답 시간은 392밀리초로 유지됐으며, 이 분리 없이는 831밀리초로 두 배 이상 늘어나고 전체 실행의 5.2%에서 시스템이 멈추는 현상이 확인됐다.

A bearded man wearing camo attire records music using a condenser microphone in a studio. — 사진: Anna Pou / Pexels

훈련 데이터 구축에도 독자적인 접근이 쓰였다. 기존 오디오 데이터셋은 짧은 클립 위주여서 긴 스트림과 드문 응답 신호 학습에 적합하지 않다는 판단 아래, 연구팀은 언어 모델로 ‘아침 주방’ 같은 장면을 설계하고 AudioX·ElevenLabs 같은 오디오 생성 모델로 누락 효과음을 합성하는 방식으로 ‘StreamAudio-2M’ 데이터셋을 자체 제작했다. 이 데이터셋은 260만 개 단위, 총 30만 2000시간 분량의 오디오를 7개 과제 영역·28개 세부 과제로 구성한다. 훈련 과정에서 모델이 긴 소음 구간에서 이전 내용을 망각하거나 관련 없는 소리에도 과잉 반응하는 두 가지 문제가 반복됐으며, 긴 구간을 되짚는 질문 학습과 대량의 명시적 침묵·배경음 데이터로 각각 보완했다. 새로 도입한 평가 기준 ‘ProactiveSound Bench’의 644개 이벤트 테스트에서 이 모델은 제미나이(Gemini) 3 Flash, Kimi-Audio-Instruct, Step-Audio 2를 앞질렀다. 오디오 벤치마크 MMAU에서는 58.15점으로 기반 모델인 Qwen2.5-Omni-3B를 소폭 상회했다.

실시간 음성 AI 시장은 챗봇 형태를 넘어 통화·현장 통역·청각 보조기기·로봇 인터페이스 등 다양한 응용 분야로 확장되고 있다. 단일 모델로 다중 과제를 스트리밍 방식으로 처리하는 설계는 응용 영역을 넓히는 동시에 배포 비용을 낮출 수 있어 주목된다. 연구팀은 전체 학습 데이터셋을 추후 공개할 예정이다.