멀티모달 대규모 언어 모델(MLLM)이 디지털 API 조작에서는 눈에 띄는 성과를 내고 있지만, 실제 물리 세계에서 도구를 다루는 능력은 아직 거의 검증된 바가 없었다. 연구팀은 이 공백을 메우기 위해 MLLM의 물리 도구 사용 능력을 체계적으로 평가하는 최초의 벤치마크 ‘PhysTool-Bench’를 새롭게 제안했다.
PhysTool-Bench는 제조, 전기 작업, 농업, 의료 등 다양한 분야에 걸쳐 실제 물리 도구 2,678종을 대상으로 총 2,510개의 질의를 구성한다. 평가 항목은 크게 두 가지로, 주어진 장면에서 모든 물리 도구를 인식하는 능력과 주어진 지시 및 시각 맥락에 따라 도구 선택 및 사용 순서를 계획하는 능력이다.
13개 주요 MLLM을 대상으로 한 평가 결과는 체화 AI 분야의 현주소를 냉정하게 드러냈다. 가장 높은 성능을 보인 모델도 장면 내 도구 인식률은 58.7%에 머물렀고, 질의 전 과정을 완수하는 비율은 21.0%에 불과했다. 연구팀은 이 결과가 두 단계의 구조적 결함을 보여준다고 분석했다. 모델이 현실적인 장면에서 도구 자체를 지각하는 데 어려움을 겪는 데다가, 지각된 도구를 실제 과제 의미론에 연결하는 기능적 상식이 부족해 계획 단계에서 성능이 훨씬 크게 떨어진다는 것이다.
이번 연구는 현재 MLLM이 로봇의 ‘두뇌’ 역할을 맡아 물리적 과제를 수행하기에는 아직 근본적인 한계가 있음을 시사한다. 디지털 환경에서의 뛰어난 성능이 실세계 도구 조작 능력으로 자동 전이되지 않으며, 도구 인식 및 기능적 상식 강화가 실용적인 체화 AI 개발의 핵심 과제로 떠올랐다. 제조·의료·농업 등 실물 도구를 다루는 산업 현장에서 AI 로봇을 실제 투입하려면 이 격차를 좁히는 것이 선결 조건이라는 점에서, PhysTool-Bench는 향후 체화 AI 연구의 표준 측정 도구로 활용될 것으로 기대된다.














