최신 LLM(대규모 언어 모델) 판별 모델이 실제 학생의 수학 풀이 과정을 평가하는 데 큰 어려움을 겪는다는 연구 결과가 나왔다. 2026년 6월 8일 arXiv에 등록된 이 논문은 고등학교 수학 시험 실제 답안을 담은 새로운 벤치마크 ‘RealMath-Eval’을 통해 이 격차를 측정했다. LLM이 수학 문제를 푸는 능력에서는 인간에 근접한 성과를 내고 있지만, 인간 학생의 다양한 풀이를 평가하는 능력은 그보다 훨씬 뒤처진다는 점을 집중 조명했다.
연구팀은 고등학교 224개의 실제 시험 답안을 엄밀하게 주석 처리한 벤치마크를 구축했다. 최첨단 LLM 판별 모델로 평가한 결과, 전문가 인간 채점 대비 평균 제곱 오차(MSE)가 약 2.96에 달해 높은 오류율을 보였다. 반면 동일한 판별 모델이 LLM이 생성한 합성 풀이 답안을 채점했을 때의 오차는 약 1.17에 그쳐 실제 답안 채점보다 훨씬 정확했다. 연구팀은 이를 ‘평가 격차(Evaluation Gap)’라 명명했다.
이 격차의 원인을 탐구하기 위해 연구팀은 의미론적 임베딩 분석을 수행했다. 그 결과 LLM이 생성한 오류는 예측 가능한 저차원 선형 부분 공간으로 ‘구조적 붕괴’를 일으키는 경향을 보인 반면, 실제 학생 오류는 훨씬 다양한 오류 공간을 형성했다. 또한 생성 확률 분석에서는 학생 풀이의 추론 전환이 현재 모델에 더 많은 정보이론적 서프라이절(surprisal)을 야기해, 학생의 사고 과정이 모델 입장에서 더 분포 외적임을 시사했다. 단순한 표면적 스타일 전환으로는 이 격차를 해소하지 못했으며, 합성 데이터에 크게 의존하는 현행 LLM 평가 체계가 실제 학생의 다양한 수학적 추론을 충분히 포착하지 못할 수 있다는 점을 시사한다.














