대규모 언어모델(LLM)이 그래프 이론 분야 수학 연구 보조 역할을 얼마나 잘 수행하는지 측정하는 벤치마크 GTBench가 학술 논문 공개 플랫폼 arXiv에 게재됐다. 총 63개 문제를 난이도 순으로 세 그룹으로 구성했다. 그룹 1은 학부 수준의 정의와 기본 속성, 그룹 2는 알고리즘 추적과 구조적 추론, 그룹 3은 대학원 수준의 증명 구성 문제다. 문제는 딕스텔(Diestel)의 그래프 이론 교재 등 검증된 학술 자료에서 출제됐다.
연구팀은 GPT-5, 클로드 소넷 4.6(Claude Sonnet 4.6), 제미나이 2.5 플래시-라이트(Gemini 2.5 Flash-Lite), 라마 3.3 70B(Llama 3.3 70B), 미스트랄 라지 3(Mistral Large 3) 등 다섯 개 프론티어 모델을 제로샷과 연쇄 추론(CoT) 방식으로 평가했다. GPT-5는 그룹 1에서 95.8%(제로샷)로 거의 완벽에 가까운 성능을 보였고, 대학원 수준 증명 과제인 그룹 3에서도 82%의 정확도를 유지했다. 반면 라마 3.3 70B는 그룹 3 제로샷 평가에서 사람 전문가가 직접 검증한 결과 0%를 기록해 난이도가 높을수록 모델 간 성능 격차가 두드러졌다.
연구는 오류 유형 분석도 포함했다. 그룹 1과 2에서는 알고리즘 방향은 맞지만 실행 과정에서 실수를 범하는 ‘옳은 방법, 틀린 실행’ 오류가 주를 이뤘다. 그룹 3에서는 증명이 불완전하거나 추론이 미완성인 경우가 추가로 나타났다. 특히 그룹 3에서는 사람 평가자와 자동화 평가 시스템(LLM-as-judge) 사이에 체계적인 판정 불일치가 드러났는데, 사람 평가자 쌍 사이의 일치도(kappa)도 0.48~0.83으로 분산돼 장황하거나 거의 완성에 가까운 증명에 대한 판정이 특히 어려운 것으로 나타났다.
GTBench는 LLM의 수학 교육 및 연구 보조 도구 활용 가능성과 그에 따른 AI 거버넌스 문제를 함께 제기한다. 가장 강력한 모델이 특정 수준에서는 높은 성능을 보이지만, 대학원 수준 증명처럼 창의적이고 비정형적인 추론이 요구되는 과제에서는 여전히 한계가 있음을 데이터로 보여준다는 점에서 의미가 있다.













