대형 언어 모델(LLM)이 수학 경시 문제를 푸는 능력은 크게 향상됐지만, 실제 연구 현장에서 이뤄지는 협업적 수학 추론을 얼마나 이해하는지는 별개의 문제다. 미국 MIT PRIMES 프로그램과 AoPS(Art of Problem Solving) CrowdMath 협업 이니셔티브 10년치(2016~2025년) 토론 데이터를 정제한 새로운 데이터셋 ‘크라우드매스(CrowdMath)’가 arXiv에 공개됐다. 연구팀은 동료 심사 논문으로 이어진 토론에서 전문가가 직접 주석을 단 164개의 진행 연쇄(progress chain)를 추출해 데이터셋을 구성했다.
크라우드매스 데이터셋의 핵심은 수학적 협업이 어떻게 진행되는지를 세밀하게 포착했다는 점이다. 참가자들이 부분적인 논증을 제시하고, 이전 단계의 오류나 빈틈을 지적하며, 결함 있는 추론을 수정하고, 개별 기여를 증명으로 통합해 나가는 과정이 기능적 역할별로 분류됐다. 부분 진행, 증명 완성, 잘못된 추론, 오류 식별 등의 범주로 각 발언이 레이블링됐으며, 총 여섯 개의 최신 언어 모델이 정의된 평가 과제에서 벤치마킹됐다.

평가 결과는 현재 AI의 뚜렷한 한계를 드러냈다. 모델들은 다음 발언 예측 과제에서 83~88%의 정확도를 기록해 표면적으로는 준수한 성능을 보였다. 그러나 발언이 협업 과정에서 어떤 역할을 수행하는지를 분류하는 과제에서는 최고 성능 모델도 매크로 F1 점수 0.42에 머물렀다. 연구팀은 이 결과가 “잘 정의된 수학 문제를 푸는 능력과 협업적 수학 진행 과정을 이해하는 능력 사이의 간극을 드러낸다”고 분석했다.
이번 연구는 AI 수학 능력 평가의 지평을 넓힌다는 점에서 의미가 있다. 지금까지 대부분의 수학 벤치마크는 독립적이고 완결된 문제 풀이에 초점을 맞춰왔다. 하지만 실제 수학 연구는 오류와 수정, 여러 기여의 합산으로 이뤄지는 집단적 과정이다. 크라우드매스는 이 과정을 데이터로 구현함으로써 협업적 추론 능력을 측정하는 새로운 기준을 제시한다. AI가 단순 문제 해결을 넘어 인간 연구자와 실질적으로 협업하려면 이 간극을 좁히는 것이 과제로 남는다.














