• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

Together AI, 세계 최고속 STT 스택 공개… 20시간 음성을 10초 이내 처리

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 18시 48분
Home AI 서비스·툴
Share on FacebookShare on Twitter

Together AI가 자체 개발한 음성 인식(STT) 추론 스택의 설계 방법론을 공개했다. NVIDIA Parakeet-TDT 0.6B v3 모델을 기반으로 구축한 이 시스템은 독립 벤치마크 기관 아티피셜 애널리시스(Artificial Analysis)의 배치 처리 평가에서 최저 지연 모델 중 하나로 선정됐으며, 실시간 대비 850배 속도로 약 20시간 분량의 음성을 10초 이내에 전사한다. 해리 포터 영화 시리즈 전체 상영 시간에 해당하는 오디오를 10초 안에 처리하는 수준이다.

Together AI가 이 수치를 달성한 핵심은 GPU 최적화와 CPU 전처리 경로를 동시에 공략한 풀패스(full-path) 시스템 접근법에 있다. NVIDIA TensorRT 멀티프로필 엔진으로 인코더를 컴파일해 200밀리초부터 30초까지 다양한 입력 길이에 대응하고, 조건부 CUDA 그래프(Conditional CUDA Graphs)를 디코더 제어 흐름에 적용해 디코더 처리 속도를 2~3배 끌어올렸다. 전체 모델 가중치의 약 95%를 차지하는 인코더를 최대한 GPU에 고정하고, 디코더 루프도 GPU로 이전해 CPU-GPU 간 동기화 왕복에서 발생하는 지연을 제거했다. CPU 측에서는 유닉스 도메인 소켓과 공유 메모리 제로카피(zero-copy) 경로로 프로세스 간 데이터 전달 오버헤드를 최소화하고, 파이썬 가비지 컬렉션을 고정해 미리 할당된 상태의 95번째 백분위수 지연 스파이크를 제거했다.

마이크와 노트북이 놓인 오디오 녹음 스튜디오 환경
사진: Jeremy Enns / Pexels

Parakeet-TDT 0.6B v3는 NVIDIA가 170만 시간의 오디오 데이터로 학습시킨 모델로 25개 유럽 언어 자동 감지를 지원하며, 인코더-디코더 구조에서 인코더에 대부분의 연산이 집중된 비대칭 설계를 특징으로 한다. Together AI는 이 모델 외에 OpenAI 위스퍼(Whisper) Large v3도 함께 서빙하고 있다. 한국어 지원 여부는 공식 발표에서 확인되지 않았으며 현재 지원 언어는 유럽 언어 중심이다.

이번 기술 공개는 STT 인프라 비용과 처리 지연을 결정짓는 스택 설계 방법론을 상세히 담고 있어 음성 AI 서비스 도입을 검토하는 엔지니어에게 직접적인 참고 자료가 된다. GPU 인퍼런스 최적화와 시스템 수준 CPU 전처리를 통합해 단일 구성 요소가 아닌 전체 경로를 최적화한 사례로, 배치 음성 처리 파이프라인 설계의 실증 사례를 공개 블로그로 제시했다는 점에서 의미가 있다. 실시간 스트리밍보다 대용량 배치 처리에 특화된 구조이므로, 대규모 음성 데이터 전사·콜센터 로그 분석 등의 활용 시나리오와 적합성이 높다.

Tags: Artificial AnalysisNVIDIA ParakeetSTTTogether AI음성인식
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
AI 멀티모달 모델 추상 흑백 다이어그램 — 멀티-LoRA 학습 아키텍처

Trajectory, 멀티-LoRA 연속학습 스택 SkyRL 오픈소스 공개… 실험 처리량 2.81배

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist IBM IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

AI 멀티모달 모델 추상 흑백 다이어그램 — 멀티-LoRA 학습 아키텍처

Trajectory, 멀티-LoRA 연속학습 스택 SkyRL 오픈소스 공개… 실험 처리량 2.81배

2026년 06월 01일 19시 24분
파란색 음파 파형 — AI 음성 인식 처리

Together AI, 세계 최고속 STT 스택 공개… 20시간 음성을 10초 이내 처리

2026년 06월 01일 18시 48분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.