LLM 지식 측정 벤치마크 KINA, 42개 모델 평가 결과 공개

대규모 언어 모델(LLM) 지식 평가를 위한 새로운 벤치마크 KINA(Knowledge Index of Noah’s Ark)가 공개됐다. 이 벤치마크는 261개 세부 학문 분야에 걸친 899개 문항으로 구성되며, 기존 LLM 지식 벤치마크의 세 가지 문제점, 즉 척도 확장 위주 설계에 따른 분야 대표성 결여, 단순 보상 방식으로 인한 부실 평가, 제한된 테스트 예산 하에서 순위 불안정성을 해결하고자 설계됐다.

13개 기관의 42개 모델을 대상으로 한 평가 결과, 구글의 제미나이-3.1-프로 프리뷰(Gemini-3.1-Pro-Preview)가 53.17%로 1위를 차지했고, 클로드-오퍼스-4.6(Claude-Opus-4.6)이 49.92%, GPT-5.4가 48.55%로 뒤를 이었다. 전체 리더보드는 48% 이상의 소수 프론티어 그룹, 38~45% 수준의 강력 모델 밀집 구간, 그리고 무작위 정답 확률 10%에 근접한 하위 모델군으로 구성된 계층 구조를 보였다. 도구 사용 평가에서는 최대 5.17 퍼센트포인트의 성능 향상이 관찰됐으나 모델별 편차가 컸다.

KINA는 분야 대표성을 전문가 선정 기준점에 대한 커버리지 최적화 문제로 정식화해, 탐욕 근사 알고리즘으로 (1-1/e) 보장을 도출했다. 또한 평가 품질 향상을 위해 보너스-온-바 토너먼트 방식이 균등 보상 방식보다 검토 품질 면에서 확률적 우위를 가짐을 이론적으로 증명했다. 아울러 인접 순위 간 과잉 해석을 막기 위해 부트스트랩 순위 안정성 통계를 함께 제공한다.

최고 모델의 정답률이 53%대에 그친다는 사실은 KINA가 현 세대 AI 모델에도 충분한 난이도를 유지하고 있음을 보여준다. 특정 도메인 지식에서 AI가 아직 인간 전문가 수준에 도달하지 못했음을 시사하며, 향후 LLM 개발 방향 설정과 역량 비교에 활용될 수 있는 기반 지표로 주목받을 전망이다.