당구 시뮬레이션으로 멀티모달 LLM 물리 추론 능력 측정하는 BilliardPhys-Bench

당구공의 충돌과 운동 경로를 분석하는 시뮬레이션을 기반으로 멀티모달 LLM(대규모 언어 모델)의 물리적 추론 능력과 시각적 역학 이해도를 측정하는 BilliardPhys-Bench 벤치마크가 arXiv에 공개됐다. 최근 GPT, 클로드(Claude), 제미나이(Gemini), 큐원(Qwen) 계열 등 이미지와 텍스트를 동시에 처리하는 멀티모달 모델들이 정적 이미지 인식에서는 좋은 성능을 보이지만, 단일 이미지로부터 물체가 어떻게 움직이고 상호작용할지를 직관적으로 추론하는 능력은 여전히 약점으로 지적된다. BilliardPhys-Bench는 이 공백을 메우기 위해 설계된 특화 벤치마크다.

당구는 물리 추론을 평가하는 도구로 여러 장점을 갖는다. 마찰과 탄성 충돌이 적용되는 복잡한 상황을 절차적 생성 엔진으로 무작위화해 통제된 환경에서 만들어낼 수 있기 때문이다. 벤치마크는 세 가지 능력을 측정한다. 공과 공의 충돌을 예측하는 과제, 벽(쿠션) 반사를 추론하는 과제, 그리고 운동이 멈춘 뒤 공의 최종 위치를 추정하는 과제다. 이 과제들은 단순한 패턴 매칭이 아니라 물리 법칙에 대한 실질적인 이해를 요구한다. 실험에서 GPT·클로드·제미나이·큐원 계열의 최신 멀티모달 모델들은 시뮬레이션 시간이 길어지고 장면 구성이 복잡해질수록 성능이 떨어졌다. 특히 연구팀은 정답이 추론하기 어려울 때 모델이 ‘상호작용이 없다’고 예측하는 경향, 즉 ‘정지 편향(stasis bias)’이라는 일관된 실패 양상을 관찰했다.

Colorful abstract representation of a molecular structure with interconnected spheres. — 사진: Google DeepMind / Pexels

이 연구 결과는 현재 AI 모델들이 인상적인 언어 능력에도 불구하고 물리 세계에 대한 직관적 이해에는 여전히 큰 격차가 있음을 보여준다. 이는 로봇 공학, 자율주행, 물리 시뮬레이션 보조 등 실세계 물리 환경에서 AI를 활용하려는 분야에 중요한 함의를 갖는다. 물리 추론 능력이 부족한 모델은 예상치 못한 방식으로 실패할 수 있으며, 이를 미리 파악하고 개선하기 위한 벤치마크의 필요성이 크다. 연구팀은 BilliardPhys-Bench가 물리 추론 능력을 높이는 훈련 방향 연구에도 활용될 수 있다고 밝혔다.

국내 멀티모달 AI 연구팀과 로봇 AI 개발자들에게 BilliardPhys-Bench는 자신들의 모델이 물리 세계를 얼마나 잘 이해하는지 측정하는 진단 도구로 활용 가능하다. 스마트 팩토리 로봇 제어, 자율주행 물체 거동 예측, 스포츠 분석 AI 등 물리적 추론이 중요한 응용 분야에서 이 벤치마크를 통해 모델의 강약점을 파악하고 개선 방향을 설정하는 데 도움이 될 것으로 기대된다.