음성 에이전트 벤치마크 EVA-Bench 2.0, 3개 도메인 213개 시나리오로 확장

서비스나우(ServiceNow) AI 연구팀이 기업용 음성 에이전트 평가 도구 EVA-Bench의 두 번째 버전 데이터셋을 공개했다. 이번 릴리스는 기존 단일 도메인에서 항공 고객 서비스 관리(CSM), 기업 IT 서비스 관리(ITSM), 의료 인사서비스(HRSD) 세 개 도메인으로 확장됐다. 전체 시나리오 수는 213개로 초기 릴리스 대비 약 4배 늘었으며, 관련 도구 수는 121개에 달한다. 항공 도메인 50개, ITSM 80개, 의료 HR 83개 시나리오가 각각 포함돼 있으며, 데이터셋은 MIT 라이선스 아래 허깅페이스(Hugging Face)에서 무료로 내려받을 수 있다.

EVA-Bench 2.0의 각 시나리오는 단일 의도 통화, 최대 4개 의도가 섞인 복합 통화, 그리고 이용자가 절차를 우회하거나 권한을 넘어서 접근을 시도하는 적대적 통화 유형을 포함한다. 연구팀은 재현성을 보장하기 위해 시나리오마다 결말에 이르는 정확히 하나의 올바른 처리 경로만 존재하도록 설계했다. 인증 절차도 각 도메인의 실제 운영 환경에 맞게 조정됐다. 모든 시나리오는 GPT-5.4를 백본으로 하는 그래프 기반 합성 데이터 생성 파이프라인 SyGra로 만들어진 뒤, 오픈AI GPT-5.4, 구글 제미나이(Gemini) 3.1 프로, 앤트로픽 클로드(Claude) 오퍼스 4.6 세 모델로 풀이 가능 여부를 검증했다.

의료 HR 도메인은 미국 의료정책과 실제 행정 시스템을 반영해 설계됐다. NPI 번호, FMLA 같은 실제 정책 요소가 시나리오에 포함돼 있으며, 전화 상담에서 실제로 발생하는 워크플로를 기준으로 시나리오를 선별했다. 연구팀은 또 향후 영어 이외 언어 지원을 위한 다국어 확장 계획도 밝혔다. 다국어 버전에서는 대화 언어뿐 아니라 이름·지역명·전화번호 등도 각 언어와 문화권에 맞게 현지화될 예정이다.

기업 환경에서 음성 AI 에이전트가 도입되는 사례가 늘면서, 실제 콜센터나 IT 헬프데스크 업무에 가까운 조건으로 에이전트를 평가할 수 있는 도구의 필요성이 높아지고 있다. EVA-Bench 2.0은 도메인별 어휘, 정책 복잡성, 인증 절차 등 현장의 다양한 변수를 시나리오에 반영해 단순 성능 수치를 넘어 실제 배포 적합성을 가늠할 수 있도록 설계됐다는 점이 특징이다.