arXiv에 2026년 6월 13일 발표된 논문이 LLM(대규모 언어 모델)의 수학 증명 단계별 추론 능력을 자동으로 측정하는 파이프라인 Mask-Proof를 제안하고, 이를 통해 구축한 벤치마크 Mask-ProofBench를 공개했다. LLM이 연구 수준의 증명을 보조하는 능력이 높아지고 있지만, 긴 증명 과정에서 단계별 추론의 질을 확장 가능하고 재현 가능한 방식으로 측정하는 수단이 부재했다는 것이 연구의 출발점이다. 기존 평가는 최종 답안이나 비용이 높은 전문가 채점에 의존하는 경우가 많았다.
Mask-Proof는 실제 수학 증명에서 핵심 공식 단계를 마스킹(masking)해 자동으로 채점 가능한 빈칸 채우기 과제로 변환한다. 주변 컨텍스트를 함께 제공하고, 모델이 복원한 결과를 LLM 기반 동치 판정기(equivalence judge)가 반복 투표 방식으로 평가해 안정성을 높였다. 이 파이프라인으로 구축된 Mask-ProofBench는 다양한 연구 분야에 걸친 292개 문제를 포함한다. LLM 기반 평가자는 전문가 주석자와 96.8%의 일치율을 달성해 신뢰할 수 있는 자동 측정이 가능함을 보였다.
17개 모델을 대상으로 실험한 결과, 추론 강화 모델은 표준 모델 대비 12%에서 27% 높은 성능을 보였다. 벤치마크·주석·코드는 공개됐다. 이 연구는 최종 답안 중심 평가의 한계를 넘어, 증명 과정의 각 단계를 세밀하게 평가할 수 있는 도구를 제공함으로써 AI의 수학적 추론 능력 향상을 측정하는 신뢰성 있는 기반을 마련했다는 데 의의가 있다.
LLM의 수학 추론 능력 경쟁이 치열해지는 가운데, 단계별 검증 가능한 평가 방법론의 중요성도 커지고 있다. AI가 연구 수준 수학의 보조 도구로 자리잡기 위해서는 최종 답안의 정확도뿐 아니라 추론 경로의 건전성을 측정하는 방법이 필요하다는 점에서, Mask-Proof 방식은 향후 AI 수학 연구 평가의 표준 접근법 중 하나로 발전할 가능성이 있다.














