투게더AI, 20시간 음성을 10초 만에 처리하는 최고속 음성인식 스택 공개

투게더AI(Together AI)가 음성인식(ASR, Automatic Speech Recognition) 처리 속도를 극한까지 끌어올린 새로운 서빙 스택을 공개했다. 인공지능 분석 전문 기관 Artificial Analysis 기준으로 세계에서 가장 빠른 음성인식 성능을 달성했으며, NVIDIA의 파라킷-TDT 0.6B v3(Parakeet-TDT 0.6B v3) 모델을 활용해 해리포터 영화 시리즈 전편에 해당하는 약 20시간 분량의 음성을 10초 미만으로 전사하는 데 성공했다.

이번 성능 도약의 핵심은 세 가지 시스템 최적화에 있다. 첫째, 엔코더 최적화다. 파라킷 모델은 전체 가중치의 약 95%가 엔코더에 집중된 구조로, 투게더AI는 TensorRT를 활용해 실제 입력 길이 분포에 맞는 다중 프로파일 실행 계획을 사전에 컴파일했다. 200밀리초의 짧은 스트리밍 청크부터 30초 연속 발화까지 다양한 입력 형태에 최적화된 커널을 선택하도록 설계해, 기존 PyTorch 경로 대비 소형 입력 처리 속도를 수 배 향상시켰다. 메모리 사용량도 6GB에서 5GB 수준으로 줄었다. 둘째, 디코더 루프의 GPU 내재화다. 파라킷의 디코더는 엔코더 출력 프레임을 순회하며 토큰 또는 블랭크(BLANK)를 예측하는 구조인데, 기존에는 분기 처리를 위해 GPU가 CPU로 결과를 전달하는 동기화 과정이 매 반복마다 발생했다. 이 병목을 제거하기 위해 조건부 CUDA 그래프 노드를 도입해 분기 판단 자체를 GPU 위에서 수행하도록 했고, 그 결과 디코더 처리 속도가 2~3배 향상됐다. 셋째, CPU 경유 데이터 복사 감소다. 음성 전처리 과정에서 컨테이너 디코딩, 리샘플링, VAD(음성구간검출), 특징 추출 등의 작업이 통상 3~4개 별도 프로세스로 분리돼 있어 커널 복사와 직렬화 비용이 발생하는데, 투게더AI는 이를 단일 프로세스로 통합해 수백 밀리초에 달하는 오버헤드를 제거했다.

Detailed close-up image of NVIDIA RTX 2080 graphics card showcasing hardware components. — 사진: Nana Dua / Pexels

텍스트와 달리 오디오는 같은 콘텐츠라도 데이터 크기가 수천 배 이상 크다. 해리포터 시리즈 전권 텍스트가 약 5MB인 데 비해 오디오북 형태로는 5~10GB에 달한다. 이 때문에 ASR 서빙은 GPU 연산 최적화만으로 해결되지 않는 종합적인 시스템 문제다. 투게더AI는 GPU 실행, CPU 전처리, 메모리 이동, 네트워크 전송, 연결 스케줄링까지 전체 경로를 최적화 대상으로 삼았다. 해당 스택은 오프라인 전사(처리량 극대화)와 실시간 스트리밍 전사(지연·지터 최소화)라는 두 가지 상이한 운영 요건을 동시에 지원한다.

현재 이 스택은 OpenAI의 위스퍼 라지 v3(Whisper Large v3)와 NVIDIA 파라킷-TDT 0.6B v3 두 모델을 서빙하며, Artificial Analysis 기준으로 두 모델 모두 최저 지연 음성인식 분야 상위권에 위치한다. 시스템 레벨의 전방위 최적화를 통한 이번 성과는, AI 추론 인프라 경쟁이 모델 파라미터 수를 넘어 서빙 효율로 옮겨가고 있음을 보여주는 사례로 평가된다.