엔비디아가 개발한 자동 음성인식(ASR) 모델 Canary-1B-v2는 NeMo ASR 툴킷을 통해 배포되며, 영어 음성을 불가리아어·크로아티아어·체코어·프랑스어·독일어·스페인어를 포함한 25개 언어로 번역하는 기능을 단일 모델로 지원한다. GPU 환경에서 실행 시 오디오 길이 대비 처리 속도를 나타내는 실시간 배율(RTFx)이 높아 대량 전사 작업에도 활용할 수 있다.
실제 활용을 위한 파이프라인 구성은 크게 세 단계로 나뉜다. 먼저 NeMo ASR 툴킷, librosa, soundfile 등 의존성 라이브러리를 설치하고 GPU 가용성을 확인한 뒤 `ASRModel.from_pretrained(“nvidia/canary-1b-v2”)` 호출로 모델을 불러온다. 이후 입력 오디오를 16kHz 단채널 WAV 형식으로 변환하는 전처리 단계를 거쳐야 한다. 변환된 오디오에 `transcribe()` 함수를 적용하면 영어 ASR 결과는 물론, `target_lang` 파라미터를 변경하는 것만으로 다양한 언어로 번역된 텍스트를 얻을 수 있다.
자막 파일 자동 생성은 타임스탬프 기능을 활성화하면 가능하다. `timestamps=True` 옵션을 추가하면 단어 단위 및 구간 단위의 시작·종료 시각 정보가 반환되며, 이를 SRT 형식으로 직렬화하는 코드를 작성하면 번역된 언어의 자막 파일을 바로 생성할 수 있다. 단순 ASR과 번역뿐 아니라 여러 파일을 묶어 처리하는 배치 전사, 반복 오디오를 이어 붙인 장문 전사도 동일한 구조로 지원한다. 추론 속도 측정을 위한 벤치마크 코드도 포함돼 실제 운영 환경의 처리 시간을 사전에 파악할 수 있다.
Canary-1B-v2는 자막 생성이 필요한 영상 플랫폼, 다국어 회의 전사 서비스, 대규모 음성 데이터 처리 파이프라인 등 다양한 응용 분야에 적합하다. GPU 없이 CPU만으로도 실행은 가능하지만 처리 속도가 크게 저하되므로 실시간 혹은 대량 처리에는 CUDA 지원 환경을 권장한다. 모델 가중치는 엔비디아 NeMo 허브에서 공개 제공되며, Colab 환경에서도 의존성 설치 후 바로 실행할 수 있어 진입 장벽이 낮은 편이다.














