수학자 49명이 공동으로 제작한 연구 수준의 AI 수학 벤치마크 데이터셋이 공개됐다. 2026년 4월 1일부터 5월 15일까지 독일 라이프치히 막스플랑크 수학 연구소(Max Planck Institute for Mathematics in the Sciences)에서 개최된 3일짜리 워크숍 ‘Benchmarks in Leipzig’에 35명이 참가했으며, 참가자를 포함한 총 49명의 수학자가 실제 연구 수준의 답이 알려진 수학 문제 100개를 수집·정리했다.
연구진은 이 100개 문항을 세 단계에 걸쳐 최신 LLM(대규모 언어 모델)들로 평가했다. 1단계에서는 5개 최신 LLM이 각 문항을 한 번씩 시도했고, 이 단계에서 41개 문항이 완전히 미해결 상태로 남았다. 2단계에서는 3개 모델을 선정해 문항당 20회씩 반복 평가를 수행했으며, 미해결 문항 수가 16개로 줄었다. 3단계에서는 2개의 고성능 추론 모델로 3회씩 시도한 결과, 마지막까지 풀리지 않은 문항은 단 2개만 남았다.

연구진은 이 결과를 바탕으로 LLM의 수학적 추론 능력이 인상적인 수준에 도달했다고 평가했다. 수학 연구자들이 직접 설계한 연구급 문제임에도 98개를 풀어냈다는 사실은 AI의 수학 능력이 단순 계산이나 교과서 수준을 넘어섰음을 시사한다. 다만 이 벤치마크는 답이 알려진 문제를 대상으로 삼았다는 점에서, AI가 미지의 수학 난제를 독자적으로 해결하는 수준에 도달했는지는 별도로 검증이 필요하다.
최근 AI 수학 능력 평가는 기존 벤치마크가 빠르게 포화되는 문제를 겪고 있다. 표준 수학 시험 문제집이나 올림피아드 문제는 이미 LLM 훈련 데이터에 포함되거나 고득점이 손쉽게 달성되면서 변별력을 잃어가는 추세다. 전문 수학자들이 직접 최전선 연구 수준의 문항을 설계한 이번 데이터셋은, 이 포화 문제를 해소하기 위한 새로운 시도로 자리매김할 전망이다.














