AWS, 마이크 없이 음성 AI 에이전트 대규모 평가하는 테스트 프레임워크 공개

아마존웹서비스(AWS)가 아마존 노바 소닉(Amazon Nova Sonic) 음성 에이전트를 마이크 없이 자동으로 대규모 평가할 수 있는 오픈소스 테스트 프레임워크 Nova Sonic Test Harness를 공개했다. 이 도구는 완전한 다중 턴 대화를 자동으로 실행하고 LLM(대규모 언어 모델) 기반 판정 기법을 활용해 에이전트 응답의 품질을 평가한다. 실제 마이크 입력 없이도 수십 가지 시나리오를 빠르게 반복 테스트할 수 있어 프롬프트 엔지니어링 과정을 체계적으로 관리할 수 있다.

이 프레임워크는 음성과 텍스트가 동시에 양방향으로 흐르는 스트리밍 환경에서 발생하는 비결정적 응답 문제를 처리하도록 설계됐다. 동일한 입력에 다양한 답변이 나오는 음성 AI 특유의 특성을 고려해 통계적 평가 방식을 채택했으며, 오디오 환각(hallucination), 즉 음성과 텍스트 응답이 불일치하는 현상도 감지할 수 있다. 세션 연결 제한 시간(약 8분)이 도래하면 자동으로 세션을 연장하는 기능도 내장돼 있다.

평가 지표는 총 6개로 중요도에 따라 세 단계로 구분된다. 목표 달성과 응답 정확성은 필수 항목으로 분류되며, 도구 사용 여부·대화 흐름·시스템 프롬프트 준수는 중요 항목, 음성 포맷팅은 권장 항목으로 나뉜다. 이처럼 구조화된 평가 기준을 적용함으로써 개발팀이 어느 지점에서 모델이 실패하는지 명확히 파악하고 반복 개선할 수 있도록 돕는다.

음성 AI 에이전트는 콜센터 자동화, 고객 지원, 인터랙티브 음성 응답 시스템 등 다양한 산업 분야에서 도입이 빠르게 늘고 있다. 그러나 기존 텍스트 기반 AI 평가 방법을 그대로 적용하기 어렵고, 직접 마이크로 시험하는 방식은 대규모 회귀 테스트에 한계가 있었다. AWS가 공개한 이 프레임워크는 음성 에이전트 품질 보증 과정을 자동화해 개발 주기를 단축하는 데 기여할 전망이다.