올림피아드 수준 조합론 벤치마크 ComBench, 최강 모델도 65% 그쳐

현재 최고 수준의 AI 모델들이 올림피아드 수준 조합론 문제에서 여전히 취약하다는 점을 드러내는 새로운 벤치마크 ComBench가 발표됐다. 연구팀은 조합론이 이산 추론, 창의적 구성, 엄밀한 구조적 통찰을 요구하는 올림피아드 수학의 핵심 영역임에도 현존 최강 프런티어 모델들이 이 분야에서 고르지 못한 성능을 보인다는 문제의식에서 출발했다.

ComBench는 수학 경시 수준의 100개 인간 주석 문제로 구성되며, 엄밀한 수학적 논증을 주로 요구하는 분석 중심 문제와 정당화와 함께 명시적 구성을 요구하는 구성 중심 문제의 두 가지 상호 보완적 유형으로 조직됐다. 평가 방식은 루브릭 기반 증명 채점과 결정론적 구성 검증을 결합해, 증명 품질과 구성 유효성이 괴리되는 사례를 드러낸다.

프런티어 오픈 소스 및 클로즈드 소스 모델 실험에서 ComBench는 아직 포화 상태와 거리가 멀었다. 가장 높은 성능을 보인 모델의 전체 평균 점수는 65.4%, Best@4 기준으로는 75.3%에 그쳤다. 또한 엄밀 증명 추론과 구성적 실현이 서로 다른 능력임을 확인했다. Kimi-K2.6은 분석 중심 증명 채점에서 GPT-5.5에 뒤졌지만 구성 중심 Best@4에서는 앞섰으며, 존재 및 구성 문제는 대표 프런티어 모델 전반에 걸쳐 일관되게 가장 어려웠다.

ComBench는 LLM의 수학적 창의 추론 역량을 진단하는 데 있어 기존 벤치마크가 충분히 포착하지 못했던 구성 능력을 정밀하게 평가한다는 점에서 의의가 있다. 수학 추론 AI 연구에서 증명 생성과 구성적 구현을 분리해 평가하는 방향이 중요해지고 있음을 시사하는 결과다.