사카나 AI, 멀티 LLM 오케스트레이터 Fugu 공개…벤치마크서 앤트로픽 Fable 5에 맞서

도쿄에 본사를 둔 AI 스타트업 사카나 AI(Sakana AI)가 복수의 언어 모델을 동적으로 조율해 단일 모델처럼 동작하는 시스템 Fugu를 공식 출시했다. Fugu는 그 자체가 언어 모델로, 요청의 복잡도에 따라 자체 처리하거나 에이전트 풀에서 전문화된 모델 팀을 구성해 작업을 분배·합성한다. 사용자에게는 OpenAI 호환 단일 API로만 노출되어 내부 오케스트레이션 구조가 투명하게 처리된다. 사카나 AI는 기본형 Fugu와 복잡한 다단계 문제를 겨냥한 고성능 모델인 Fugu Ultra 두 가지 버전을 제공한다.

사카나 AI가 공개한 벤치마크 결과에 따르면 Fugu Ultra는 SWE Bench Pro 73.7%, TerminalBench 2.1 82.1%, LiveCodeBench 93.2%, GPQA-D 95.5% 등을 기록해 앤트로픽의 Fable 5 및 Mythos Preview와 동급 수준을 주장한다. 비교 기준으로 사용된 Opus 4.8(SWE Bench Pro 69.2%, LiveCodeBench 87.8%), Gemini 3.1 Pro(SWE Bench Pro 54.2%, LiveCodeBench 88.5%), GPT 5.5(SWE Bench Pro 58.6%, LiveCodeBench 85.3%)를 여러 지표에서 상회했다. 다만 앤트로픽의 두 모델은 수출통제로 현재 공개 접근이 불가능해 실제로 Fugu의 에이전트 풀에 포함되지 않았으며, 사카나 AI는 “포함됐다면 점수가 더 높았을 것”이라고 밝혔다.

사카나 AI는 Fugu의 핵심 가치 중 하나로 특정 AI 제공자에 대한 의존도 분산을 꼽는다. 에이전트 풀은 완전히 교체 가능한 구조여서 특정 제공자의 서비스가 중단되면 다른 모델로 자동 우회할 수 있다. 회사는 앤트로픽 모델에 대한 수출통제 사례를 직접 거론하며 “단일 기업의 API에 의존하는 것은 핵심 인프라에 있어 물질적 취약성”이라고 강조했다. 단, 상위 제공자 여럿이 동시에 접근 제한에 들어갈 경우 Fugu의 선택지도 줄어들어 완전한 주권과는 거리가 있다는 한계도 있다. 베타 테스터 약 500명은 자동화 데이터 리서치, 코드 리뷰, 보안 분석 등 장기 다단계 워크플로우에서 Fugu Ultra가 GPT 5.5 대비 훨씬 많은 오류를 검출했다고 보고했다.

Fugu의 기술적 기반은 사카나 AI가 ICLR 2026에서 발표한 두 편의 논문, 트리니티(Trinity)와 컨덕터(Conductor)에 있다. 사카나 AI는 트랜스포머 아키텍처를 제안한 2017년 논문 ‘어텐션 이즈 올 유 니드(Attention Is All You Need)’의 공동 저자 리온 존스와 데이비드 하가 설립한 회사로, 군집 행동·진화·집단 지성 같은 자연 원리를 AI에 적용하는 것을 핵심 비전으로 삼는다. Fugu는 현재 구독형 및 사용량 기반 요금제로 API를 통해 이용할 수 있다.