• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

투게더AI, 20시간 음성을 10초 만에 처리하는 최고속 음성인식 스택 공개

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 16시 46분
Home AI 모델·연구
Share on FacebookShare on Twitter

투게더AI(Together AI)가 음성인식(ASR, Automatic Speech Recognition) 처리 속도를 극한까지 끌어올린 새로운 서빙 스택을 공개했다. 인공지능 분석 전문 기관 Artificial Analysis 기준으로 세계에서 가장 빠른 음성인식 성능을 달성했으며, NVIDIA의 파라킷-TDT 0.6B v3(Parakeet-TDT 0.6B v3) 모델을 활용해 해리포터 영화 시리즈 전편에 해당하는 약 20시간 분량의 음성을 10초 미만으로 전사하는 데 성공했다.

이번 성능 도약의 핵심은 세 가지 시스템 최적화에 있다. 첫째, 엔코더 최적화다. 파라킷 모델은 전체 가중치의 약 95%가 엔코더에 집중된 구조로, 투게더AI는 TensorRT를 활용해 실제 입력 길이 분포에 맞는 다중 프로파일 실행 계획을 사전에 컴파일했다. 200밀리초의 짧은 스트리밍 청크부터 30초 연속 발화까지 다양한 입력 형태에 최적화된 커널을 선택하도록 설계해, 기존 PyTorch 경로 대비 소형 입력 처리 속도를 수 배 향상시켰다. 메모리 사용량도 6GB에서 5GB 수준으로 줄었다. 둘째, 디코더 루프의 GPU 내재화다. 파라킷의 디코더는 엔코더 출력 프레임을 순회하며 토큰 또는 블랭크(BLANK)를 예측하는 구조인데, 기존에는 분기 처리를 위해 GPU가 CPU로 결과를 전달하는 동기화 과정이 매 반복마다 발생했다. 이 병목을 제거하기 위해 조건부 CUDA 그래프 노드를 도입해 분기 판단 자체를 GPU 위에서 수행하도록 했고, 그 결과 디코더 처리 속도가 2~3배 향상됐다. 셋째, CPU 경유 데이터 복사 감소다. 음성 전처리 과정에서 컨테이너 디코딩, 리샘플링, VAD(음성구간검출), 특징 추출 등의 작업이 통상 3~4개 별도 프로세스로 분리돼 있어 커널 복사와 직렬화 비용이 발생하는데, 투게더AI는 이를 단일 프로세스로 통합해 수백 밀리초에 달하는 오버헤드를 제거했다.

Detailed close-up image of NVIDIA RTX 2080 graphics card showcasing hardware components.
사진: Nana Dua / Pexels

텍스트와 달리 오디오는 같은 콘텐츠라도 데이터 크기가 수천 배 이상 크다. 해리포터 시리즈 전권 텍스트가 약 5MB인 데 비해 오디오북 형태로는 5~10GB에 달한다. 이 때문에 ASR 서빙은 GPU 연산 최적화만으로 해결되지 않는 종합적인 시스템 문제다. 투게더AI는 GPU 실행, CPU 전처리, 메모리 이동, 네트워크 전송, 연결 스케줄링까지 전체 경로를 최적화 대상으로 삼았다. 해당 스택은 오프라인 전사(처리량 극대화)와 실시간 스트리밍 전사(지연·지터 최소화)라는 두 가지 상이한 운영 요건을 동시에 지원한다.

현재 이 스택은 OpenAI의 위스퍼 라지 v3(Whisper Large v3)와 NVIDIA 파라킷-TDT 0.6B v3 두 모델을 서빙하며, Artificial Analysis 기준으로 두 모델 모두 최저 지연 음성인식 분야 상위권에 위치한다. 시스템 레벨의 전방위 최적화를 통한 이번 성과는, AI 추론 인프라 경쟁이 모델 파라미터 수를 넘어 서빙 효율로 옮겨가고 있음을 보여주는 사례로 평가된다.

Tags: ASRGPU최적화ParakeetWhisper음성인식투게더AI
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Overhead shot of a large collection of white pickup trucks parked in neat rows, emphasizing industrial scale.

버라이즌 커넥트, AWS 에이전틱 AI로 10만 플릿 사용자 데이터 분석 자동화

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist IBM IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

AI 멀티모달 모델 추상 흑백 다이어그램 — 멀티-LoRA 학습 아키텍처

Trajectory, 멀티-LoRA 연속학습 스택 SkyRL 오픈소스 공개… 실험 처리량 2.81배

2026년 06월 01일 19시 24분
파란색 음파 파형 — AI 음성 인식 처리

Together AI, 세계 최고속 STT 스택 공개… 20시간 음성을 10초 이내 처리

2026년 06월 01일 18시 48분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.