AI 에이전트 파이프라인, 수치 해석 교재 형식화…커널 수용 너머 품질 기준 제안

AI 코딩 에이전트를 활용해 수치 해석(Numerical Analysis) 교재를 정리 증명 언어 Lean 4로 형식화하고, 기존 평가 방식의 한계를 극복하는 새로운 품질 심사 체계를 제시한 논문이 arXiv(논문 번호 2606.14000)에 제출됐다. 2026년 6월 12일 공개된 이 연구는 AI 에이전트가 고급 수학 교재 전체를 형식화할 수 있다는 기존 연구 성과를 이어받으면서도, 두 가지 핵심 한계를 직접 겨냥한다. 첫째는 기존 연구들이 이미 mathlib(Lean 4의 수학 라이브러리)에 잘 정비된 수학 분야에만 집중해 왔다는 점이고, 둘째는 성공 기준을 커널(kernel) 수용 여부, 즉 컴파일 통과만으로 측정해 왔다는 점이다.

이번 연구팀은 mathlib에서 거의 다뤄지지 않은 ‘상미분방정식 수치 방법(Numerical Methods for Ordinary Differential Equations)’ 교재를 대상으로 삼아, 에이전트가 새로운 이론을 처음부터 개발해야 하는 상황을 의도적으로 조성했다. 이와 함께 형식화 결과물의 품질을 컴파일 수준 너머에서 평가하는 재현 가능한 3차원 체계를 도입했다. 세 축은 의미론적 정확성(semantic correctness), Mathlib 재사용(Mathlib reuse), 파일 간 재사용(cross-file reuse)이며 LLM-as-judge 방식으로 평가를 수행한다.

이 평가 체계를 자체 형식화 결과물뿐 아니라 기존에 공개된 RepoProver와 M2F의 출력물에도 적용한 결과, 커널 수용이 완전히 가려왔던 반복적인 충실도 미달 패턴들이 드러났다. 구체적으로는 다중 파트 명제의 불완전한 기술, 불필요한 약화 가설 추가, 파라미터 제약 문제 등이 확인됐다. 연구팀은 컴파일 기반 지표가 형식화 품질을 상당히 과대평가한다는 결론을 내리며, 향후 자동 형식화 시스템의 엄밀한 평가를 지원하기 위한 재현 가능한 감사 방법론을 함께 제공했다.

자동 형식화(autoformalization) 연구는 수학적 증명의 신뢰성을 기계가 보장하는 방향으로 빠르게 진전하고 있다. 그러나 컴파일 통과만을 목표로 삼을 경우 내용상 오류가 감춰질 수 있다는 이번 연구의 지적은, AI 수학 에이전트 평가 관행 전반에 재검토를 촉구하는 신호로 읽힌다. 연구팀이 제시한 3차원 품질 체계가 향후 자동 형식화 분야의 표준 감사 방법론으로 자리 잡을지 주목된다.