LLM(대규모 언어 모델)이 형식 수학 증명 벤치마크에서 두드러진 성과를 내고 있지만, 기존 평가는 경쟁 수학 문제 중심이어서 더 길고 의존성이 복잡한 수학적 전개에서 모델이 어떻게 작동하는지 반영하지 못한다는 한계가 있다. 이를 보완하기 위해 연구진은 형식 증명 보조 언어 린4(Lean4)를 기반으로 한 TheoremBench를 개발했다. 약 100개의 고전 정리를 수록한 이 벤치마크는 두 가지 형태로 공개됐다. 각 인스턴스에 목표 정리 하나를 담은 기본 버전과, 각 정리를 관련 부정리(subtheorem)로 구성된 구조화 패밀리로 확장한 전제 버전이다.
이 설계는 단순히 최종 정리가 증명됐는지 여부만이 아니라, 내부 증명 구조를 통한 부분적 진전도 평가할 수 있다. 평가 지표로는 정리 수준 커버리지와 토큰 효율성 지표를 도입해 증명 행동의 질적 차이를 드러냈다. 실험 결과, 명시적 전제 정보를 제공하면 린4 지원 증명 모델의 성능이 크게 향상됐다. 또한 현재 증명기들이 쉬운 부정리에 강하게 편향돼 있으며, 간결한 증명 계획 대신 길고 비효율적인 전술 나열 방식으로 정리를 풀어 가는 경향이 확인됐다.

TheoremBench는 형식 수학 추론 능력을 더 세밀하게 들여다볼 수 있는 공개 평가 기준을 제공한다는 점에서 주목된다. LLM 기반 수학 증명 연구는 소프트웨어 검증, 이론 컴퓨터 과학, 수학 발견 보조 등 다양한 분야와 맞닿아 있다. 경쟁 문제 성과에만 의존했던 기존 평가의 한계를 보완함으로써, 실제로 수학적 구조를 이해하고 단계별로 논증을 구성하는 능력을 갖춘 모델 개발을 이끄는 데 기여할 전망이다.














