LLM의 대화형 추론을 측정하는 계층적 게임 벤치마크 제안

대규모 언어 모델(LLM)의 추론 능력을 정적 질의응답이 아닌 ‘능동적 증거 수집과 신념 갱신’ 과정으로 평가하는 새로운 다중 턴 벤치마크가 제안됐다(arXiv:2606.00103). Fan 등 연구진은 LLM이 과제 규칙만 받은 상태에서 숨겨진 환경에 쿼리를 날리고, 부분 관측 결과를 시간 순서로 통합해 최종 답을 제출하도록 설계된 평가 프레임워크를 소개했다. 기존 성공률과 상호작용 효율성 외에도, 맥락적 섭동(contextual perturbation) 아래서의 견고성과 반사실적 수정 및 필요성 판단을 통한 메타인지 적응 능력까지 측정 대상으로 삼는다.

연구진은 이 프레임워크를 474종의 실행 가능한 게임으로 구체화했다. 각 게임은 다섯 가지 난이도에 해당하는 고정된 설정 탐색 공간에서 평가되며, 광범위한 최신 LLM 집합을 대상으로 실험이 수행됐다. 결과에 따르면, 이 벤치마크는 모델 간 성공률 격차뿐 아니라 상호작용 효율성에서도 큰 차이를 드러내는 높은 변별력을 보였다. 맥락 섭동은 완만하지만 일관된 성능 하락을 유발한 반면, 반사실적 수정과 필요성 판단 과제는 이보다 훨씬 큰 성능 저하를 초래했다.

Adults and children playing with intricate wooden puzzles on a white table, fostering creativity. — 사진: www.kaboompics.com / Pexels

이 연구의 의의는 추론을 단순한 정답 도출 과정이 아니라 환경과의 능동적 상호작용으로 재정의한 데 있다. 실제 문제 해결 맥락에서 AI는 불완전한 정보를 가진 채 질문을 선택하고, 중간 관측을 갱신하며, 최종 판단 시점을 스스로 결정해야 한다. 기존 벤치마크가 이 복합적인 역량을 충분히 측정하지 못한다는 점에서, 474개 게임이라는 구체적이고 실행 가능한 평가 도구를 제시한 이 연구는 LLM 평가 체계 개선에 기여할 것으로 보인다.

메타인지 능력과 반사실적 추론은 의료 진단, 법률 보조, 자율 에이전트 등 고위험 응용 분야에서 특히 중요하다. 최신 프론티어 LLM들도 이 과제에서 상당한 취약점을 드러냈다는 실험 결과는, 현재 모델이 맥락 변화에 얼마나 민감하게 반응하는지를 보여준다. 이는 모델 배포 전 보다 정밀한 역량 진단이 필요하다는 주장을 뒷받침한다.