Together AI, 코딩 에이전트 추론 벤치마크 — TPS 31% 우위·비용 76% 절감

Together AI가 코딩 에이전트 워크로드를 대상으로 한 대규모 추론 벤치마크 결과를 공개했다. 이번 테스트에서 Together Inference Engine은 동일한 4× NVIDIA B200 GPU 구성에서 NVIDIA TensorRT-LLM 대비 초당 토큰(TPS) 기준 31% 높은 처리량을 기록했다. 포화 상태에서의 첫 토큰까지 걸리는 시간(TTFT, Time to First Token) 역시 2배 우수한 수치를 달성했다. SGLang과의 비교에서도 Together AI 쪽이 앞섰으나, SGLang은 메모리 제약으로 인해 B200 GPU를 8개 사용한 조건에서 실행됐다는 점에서 직접 비교에는 한계가 있다.

비용 측면에서는 Kimi K2.6 모델을 사용할 때 요청당 평균 0.108달러로, Claude Opus 4.6의 0.451달러 대비 76% 저렴한 것으로 나타났다. 벤치마크 워크로드는 코딩 에이전트의 실제 사용 패턴을 반영해 45K~200K 토큰 길이의 프롬프트, 평균 450 토큰 출력, 높은 동시 요청 수 조건을 적용했다. Together AI는 ThunderMLA 커널과 드래프트 토큰 3개·수용률 약 70%의 EAGLE 스펙큘레이티브 디코딩(speculative decoding) 기법을 적용해 이 같은 성능을 구현했다고 밝혔다.

A laptop screen showing a code editor with a cute orange crab plush toy beside it. — 사진: Daniil Komov / Pexels

코딩 에이전트는 긴 컨텍스트와 빈번한 도구 호출을 특징으로 하는 워크로드로, 추론 인프라에 일반 챗봇과는 다른 요구 사항을 부과한다. 긴 입력 처리 능력, 동시성 처리, TTFT 최소화가 특히 중요하며, Together AI는 이 조건에서 성능 우위를 입증했다고 주장했다. 이번 벤치마크 결과는 AI 코딩 툴 시장이 급성장하는 상황에서 추론 인프라 선택이 운영 비용과 사용자 경험에 미치는 영향을 구체적인 수치로 보여주는 사례로 주목된다.

Together AI는 스타트업·엔터프라이즈 고객 대상으로 API 및 온프레미스 추론 인프라를 제공하는 기업으로, 오픈 모델 생태계를 중심으로 사업을 확장해 왔다. 이번 벤치마크는 OpenAI Codex, GitHub Copilot 등 독점 코딩 에이전트 서비스와의 가격·성능 경쟁에서 오픈 인프라의 우위를 내세우려는 포지셔닝으로 풀이된다.