엔비디아, 임상 음성인식 평가 자동화 에이전트 스킬 공개

엔비디아가 임상 음성인식(ASR) 모델의 평가 품질을 높이는 에이전트 스킬 기반 워크플로를 공개했다. 이 워크플로는 NVIDIA NeMo Data Designer와 NVIDIA Nemotron Speech를 결합해 의약품·시술명 등 임상 전문 용어의 발음 인식 합성 오디오를 생성하고, 반복적인 품질 개선 루프를 자동화한다. 실제 환자 녹음 데이터는 HIPAA 규정으로 공유가 제한되는 반면 합성 오디오는 개인건강정보를 포함하지 않아 팀 간 버전 관리와 자동화 테스트 파이프라인에 자유롭게 활용할 수 있다.

에이전트 스킬은 임상 프로필 정의, 벤치마크 생성, 발음 검수, 합성 오디오 생성, ASR 성능 측정, 개선 방향 결정이라는 플라이휠 전체를 하나의 대화형 워크플로로 연결한다. 개발자는 진료 과목, 알려진 오류 패턴, 어려운 용어 목록을 에이전트에게 전달하면 에이전트가 각 단계를 안내하며 진행한다. NeMo Data Designer는 임상 시드 용어에서 풍부한 텍스트 데이터셋을 생성하고, 발음 기호(IPA) 검증을 거친 SSML 태그가 붙은 문장을 TTS 입력으로 만든다. 최종 오디오는 NVIDIA Magpie TTS Multilingual로 합성되며, NeMo 호환 JSONL 매니페스트로 출력돼 평가·적응·재평가 단계로 넘겨진다.

A laboratory scientist in protective gear working on a sample analysis with modern equipment. — 사진: Pavel Danilyuk / Pexels

성능 지표는 전체 단어 오류율(WER)·문자 오류율(CER)·핵심 키워드 오류율(KER)·문장 오류율(SER) 네 가지를 제공하며, 에이전트 스킬은 이를 다음 개선 단계의 결정 신호로 활용한다. KER이 임계값 0.3을 초과하고 매니페스트 행이 100개 이상일 때만 파인튜닝을 진행하는 방식으로 모델 적응의 남용을 방지한다. 또한 발음 사전 누락이 원인인 경우 파인튜닝이 아닌 벤치마크 확장으로 경로를 전환하는 규칙도 내장돼 있다. 정형외과 시뮬레이션 예시에서는 67개 샘플의 완전한 벤치마크 구축과 약물명 취약 카테고리 식별이 실증됐다.

임상 환경의 음성인식 오류는 처방 누락이나 문서 오류로 이어질 수 있어 정확도가 특히 중요하다. 엔비디아의 이 접근법은 합성 데이터만으로도 반복 가능한 평가 루프를 구성할 수 있음을 보여주며, 전문 용어가 많은 의료·법률·금융 등 다른 특화 도메인 ASR 개발에도 적용 가능한 방법론으로 주목받는다.