연구팀이 대규모 언어 모델(LLM)의 물리적 어포던스(affordance) 추론 능력을 평가하는 새로운 벤치마크 AFFORDANCE20Q를 공개했다. 어포던스 추론이란 사물의 형태·재질 같은 물리적 속성에서 해당 사물로 무엇을 할 수 있는지를 유추하는 능력으로, 인간의 물리적 세계 이해에서 핵심적 역할을 하며 LLM에서도 점점 중요성이 부각되고 있다. 이번 연구는 arXiv에 2026년 6월 12일 게재됐다.
기존 어포던스 벤치마크들은 평가 과정에서 사물의 이름을 직접 노출해, 모델이 실제로 물리적 속성을 추론하지 않고 암기된 사물-어포던스 대응 관계에 의존할 수 있다는 한계를 갖고 있었다. AFFORDANCE20Q는 이 문제를 해결하기 위해 ’20문답 게임'(20 Questions game) 형식을 도입했다. 각 게임에서 모델은 대상 사물의 정체를 알지 못한 채 물리적 속성에 관한 예/아니오 질문을 던지며 해당 사물의 어포던스를 후보 집합 안에서 맞혀야 한다. 벤치마크는 수동으로 검수·정제된 454개 사물, 59종 어포던스, 총 1,009개 게임으로 구성됐다.

15개 최신 LLM을 대상으로 한 실험 결과, 모든 모델이 인간 성능 대비 약 20점의 격차를 보였다. KL 발산 기반 정보 이득(information gain) 분석에서는 게임이 진행될수록 모델이 변별력 있는 질문을 던지는 능력이 저하되는 현상이 확인됐다. 이를 개선하기 위해 연구팀은 지식 베이스(KB) 증거를 근거로 어포던스 규칙을 생성하는 파이프라인인 KARI(KB-Anchored Rule Induction)를 제안했다. KARI를 적용한 오픈소스 LLM은 최대 15.2점 성능 향상을 기록했으나, 지식 베이스의 커버리지 한계로 인해 추가 개선에는 제약이 따른다고 연구팀은 설명했다.
연구팀은 LLM이 사물 이름을 통한 암기 대신 물리적 속성에서 직접 추론하는 능력을 체계적으로 개선해야 한다는 점을 이번 연구가 보여준다고 밝혔다. 코드와 데이터는 모두 공개될 예정이다. 어포던스 추론은 로봇 공학, 가정용 AI 보조 시스템 등 물리 세계와 상호작용하는 AI 시스템에서 핵심 능력으로 꼽히는 만큼, 이번 벤치마크는 해당 분야 연구의 기준점 역할을 할 것으로 기대된다.
—














