엔비디아 '네모트론 3.5 ASR' 공개…40개 언어 실시간 음성인식

엔비디아 ‘네모트론 3.5 ASR’ 공개…40개 언어 실시간 음성인식

엔비디아(NVIDIA)가 6억 파라미터 규모의 스트리밍 자동 음성인식(ASR, Automatic Speech Recognition) 모델 ‘네모트론 3.5 ASR(Nemotron 3.5 ASR)’을 공개했다. 단일 체크포인트로 영어·한국어·일본어·아랍어·힌디어를 포함한 40개 언어·로케일을 실시간 전사할 수 있으며, 모델 가중치는 허깅페이스(Hugging Face)를 통해 OpenMDW-1.1 라이선스로 누구나 내려받을 수 있다.

이 모델의 핵심 구조는 ‘캐시 인식 패스트컨포머-RNNT(Cache-Aware FastConformer-RNNT)’다. 기존 스트리밍 방식은 오디오 윈도우가 겹치는 구간을 반복 처리해 지연과 연산 낭비가 발생했다. 반면 네모트론 3.5 ASR은 인코더의 셀프어텐션과 컨볼루션 활성값을 캐시에 저장해 새 오디오 프레임이 들어올 때마다 재사용한다. 덕분에 각 프레임을 정확히 한 번만 처리해 지연과 연산량을 동시에 줄인다. 추론 시 파라미터 하나(att_context_size)를 조정하는 것만으로 80밀리초 초저지연 모드부터 1.12초 고정확도 모드까지 선택할 수 있으며, 재학습은 필요 없다.

Artistic close-up of a microphone in vibrant neon lighting, perfect for music or podcast themes. — 사진: Irina Iriser / Pexels

언어 처리 방식도 주목할 만하다. 추론 시 목표 언어를 직접 지정하거나 자동 감지 모드(auto)를 설정하면 모델이 스스로 언어를 판별하고 결과 텍스트에 언어 태그를 붙인다. 별도의 언어 식별 컴포넌트 없이 하나의 모델로 여러 언어가 혼재하는 음성도 전사할 수 있다. 출력 텍스트에는 구두점과 대소문자가 기본으로 포함돼 별도 후처리 단계 없이 바로 사용 가능하다. 엔비디아는 그리스어와 불가리아어를 대상으로 한 파인튜닝 사례를 공개했으며, 공개 코퍼스를 활용한 추가 학습으로 성능을 끌어올릴 수 있음을 확인했다.

오픈웨이트 공개로 기업과 연구자가 자체 서버에서 직접 운용하거나 특정 도메인·언어에 맞게 파인튜닝할 수 있는 유연성을 확보한 것이 이번 출시의 핵심 의의다. 딥그램(Deepgram)·어셈블리AI(AssemblyAI) 등 기존 폐쇄형 스트리밍 API나 배치 처리 중심의 오픈AI 위스퍼(Whisper)와 달리 셀프호스팅과 실시간 스트리밍을 동시에 지원한다는 점에서 차별화된다. 엔비디아는 gRPC 기반 스트리밍을 지원하는 프로덕션용 NIM(NVIDIA Inference Microservice) 출시도 예고했다.