엔비디아(NVIDIA)가 6억 파라미터 규모의 스트리밍 자동 음성인식(ASR, Automatic Speech Recognition) 모델 ‘네모트론 3.5 ASR(Nemotron 3.5 ASR)’을 공개했다. 단일 체크포인트로 영어·한국어·일본어·아랍어·힌디어를 포함한 40개 언어·로케일을 실시간 전사할 수 있으며, 모델 가중치는 허깅페이스(Hugging Face)를 통해 OpenMDW-1.1 라이선스로 누구나 내려받을 수 있다.
이 모델의 핵심 구조는 ‘캐시 인식 패스트컨포머-RNNT(Cache-Aware FastConformer-RNNT)’다. 기존 스트리밍 방식은 오디오 윈도우가 겹치는 구간을 반복 처리해 지연과 연산 낭비가 발생했다. 반면 네모트론 3.5 ASR은 인코더의 셀프어텐션과 컨볼루션 활성값을 캐시에 저장해 새 오디오 프레임이 들어올 때마다 재사용한다. 덕분에 각 프레임을 정확히 한 번만 처리해 지연과 연산량을 동시에 줄인다. 추론 시 파라미터 하나(att_context_size)를 조정하는 것만으로 80밀리초 초저지연 모드부터 1.12초 고정확도 모드까지 선택할 수 있으며, 재학습은 필요 없다.

언어 처리 방식도 주목할 만하다. 추론 시 목표 언어를 직접 지정하거나 자동 감지 모드(auto)를 설정하면 모델이 스스로 언어를 판별하고 결과 텍스트에 언어 태그를 붙인다. 별도의 언어 식별 컴포넌트 없이 하나의 모델로 여러 언어가 혼재하는 음성도 전사할 수 있다. 출력 텍스트에는 구두점과 대소문자가 기본으로 포함돼 별도 후처리 단계 없이 바로 사용 가능하다. 엔비디아는 그리스어와 불가리아어를 대상으로 한 파인튜닝 사례를 공개했으며, 공개 코퍼스를 활용한 추가 학습으로 성능을 끌어올릴 수 있음을 확인했다.
오픈웨이트 공개로 기업과 연구자가 자체 서버에서 직접 운용하거나 특정 도메인·언어에 맞게 파인튜닝할 수 있는 유연성을 확보한 것이 이번 출시의 핵심 의의다. 딥그램(Deepgram)·어셈블리AI(AssemblyAI) 등 기존 폐쇄형 스트리밍 API나 배치 처리 중심의 오픈AI 위스퍼(Whisper)와 달리 셀프호스팅과 실시간 스트리밍을 동시에 지원한다는 점에서 차별화된다. 엔비디아는 gRPC 기반 스트리밍을 지원하는 프로덕션용 NIM(NVIDIA Inference Microservice) 출시도 예고했다.














