AI 시대 벤치마크 맹신, 지표가 가치를 삼킨다

AI 모델 성능을 벤치마크 점수로 줄 세우는 관행이 일상화된 가운데, 유타대 게임 철학 전문가 C. Thi 응우옌(C. Thi Nguyen)이 저서 ‘더 스코어(The Score)’에서 수치 측정이 어떻게 인간의 가치 판단을 잠식하는지를 분석해 주목받고 있다. 그는 외부 측정 기준을 무비판적으로 수용하고 그것이 자신의 목표를 결정하게 되는 현상을 ‘가치 포획(value capture)’으로 정의한다. 식당이 좋은 음식보다 옐프(Yelp) 별점을 추구하거나, 학생이 배움보다 학점을 목표로 삼는 것이 대표적 사례다.

응우옌은 지표가 맥락 간 이동이 쉽다는 특성 때문에 매력적으로 보이지만, 그 편의성을 위해 복잡한 정성 정보를 제거한다고 설명한다. 역사학자 시어도어 포터(Theodore Porter)의 표현을 빌리면, 수치는 “거리의 기술”로서 친밀한 지식과 개인적 신뢰의 필요를 최소화한다. 그러나 이 과정에서 지표는 측정하려는 대상의 핵심을 놓치게 된다. 굿하트의 법칙, 즉 “측정 지표가 목표가 되면 좋은 측정 지표가 아니게 된다”는 원칙도 같은 문제를 가리키지만, 응우옌은 이 법칙이 인간 오류의 문제가 아니라 측정 자체의 근본적 한계라고 주장한다.

AI 분야에서 이 문제는 직접적으로 나타난다. 모델 개발사들은 MMLU, HumanEval, ARC 등 벤치마크 점수를 경쟁 근거로 제시하지만, 특정 테스트셋에 과적합(overfitting)해 실제 활용 성능과 괴리가 커지는 현상이 반복해서 보고된다. 응우옌은 “지능과 창의성을 AI가 넘어설 일련의 벤치마크로 전환한다면 우리는 이미 진 것”이라며 기계는 지표로 정의된 세계에서 인간을 능가하도록 설계됐다는 점을 강조한다. 수치로 표현하기 어려운 것들, 즉 맥락적 판단, 윤리적 감수성, 창의적 의미 창출이 AI 시대에 인간 고유의 가치를 지키는 핵심이라는 시각이다.