클로드 Fable 5, FrontierMath 최고 난이도 티어에서 GPT-5.5 앞섰다

앤트로픽(Anthropic)의 클로드 페이블(Claude Fable) 5가 AI 수학 추론 분야에서 현재 공개된 모델 중 가장 높은 성능을 기록했다. AI 연구 기관 에포크 AI(Epoch AI)가 FrontierMath 벤치마크를 측정한 결과, Fable 5는 티어 1~3 구간에서 87%, 최고 난이도인 티어 4(v2)에서 88% 정확도를 달성했다. 같은 조건에서 오픈AI의 GPT-5.5는 티어 4에서 약 75% 수준에 그쳐 두 모델의 격차가 13점에 달했다. 모든 모델은 에포크 AI의 표준 스캐폴드와 최대 추론 노력 설정 하에 평가됐다.

FrontierMath는 전문 수학자 수준의 연구 문제를 포함하는 벤치마크로, AI 수학 추론 능력을 측정하는 가장 어려운 기준 중 하나로 꼽힌다. 앤트로픽 모델들의 수학 성능은 비교적 짧은 기간 안에 급격히 향상됐다. 2026년 초만 해도 Fable 5의 전임 모델인 클로드 오퍼스(Claude Opus) 4.5는 티어 4에서 10% 미만의 점수를 기록했던 것으로 알려졌다.

written equations on brown wooden board — 사진: Roman Mager / Unsplash

이러한 수학 능력 향상은 단순한 벤치마크 수치를 넘어 실제 연구 성과로도 이어지고 있다. 오픈AI 모델이 수십 년간 미해결 상태였던 에르되시(Erdős) 수학 문제를 풀었다는 보고가 나왔고, 앤트로픽의 클로드 미토스(Claude Mythos) 모델도 같은 문제를 해결했다고 알려졌다. 다만 Fable 5와 Mythos 5는 미국 정부의 수출통제 지시로 현재 전 세계 접속이 차단된 상태로, 이번 벤치마크 결과는 차단 이전에 완료된 평가를 기반으로 한다.

다만 이번 우위가 얼마나 지속될지는 단정하기 이르다. 오픈AI는 이미 후속 모델인 GPT-5.6을 개발 중인 것으로 전해져, 모델 세대 교체에 따라 격차가 좁혀지거나 역전될 여지가 남아 있다. 또 이번 평가는 에포크 AI의 표준 스캐폴드와 최대 추론 노력 설정이라는 특정 조건에서 측정된 결과인 만큼, 설정이 달라지면 점수도 달라질 수 있다는 한계를 함께 고려해야 한다. 결국 모델의 수학 활용 가치는 통제된 벤치마크를 넘어 연구 현장에서 재현 가능한 성과로 이어지는지에 따라 판가름날 것이다.