비둘기처럼 탐색하는 VLM 공간 추론 에이전트 파이프라인 제안

비전-언어 모델(VLM)의 공간 추론 능력을 강화하기 위한 새로운 에이전트 파이프라인이 arXiv에 발표됐다. 기존 연구들이 VLM을 수동적 관찰자로 취급해 실세계 응용에 한계가 있었고, 강화학습 기법들은 희소 보상에 의존해 복잡한 추론 과제에서 효과가 제한적이었다. 연구팀은 비둘기가 내비게이션을 위해 인지 지도를 구축하고 활용하는 방식에서 영감을 받아 새로운 에이전트 파이프라인을 설계했다.

이 파이프라인은 두 가지 핵심 요소로 구성된다. 첫째는 장면 레이아웃을 물체의 위치와 방향으로 매개변수화하고 새로운 관찰을 지속적으로 누적하는 동적 인지 지도(dynamic cognitive map)다. 둘째는 공간 관계를 프로그래밍 방식으로 기술하는 파이썬 표현식인 공간 서언 코드(Spatial Assertion Codes, SAC)다. SAC는 동적 인지 지도와 연계해 중간 추론 단계를 검증하고 밀집 보상 신호를 제공한다. 모델은 지도 학습 및 강화학습 파인튜닝으로 최적화됐다.

Digital art of geometric shapes in soft motion creating a modern abstract design. — 사진: Steve A Johnson / Pexels

MindCube 벤치마크 실험에서 이 파이프라인은 전체 정확도 80.5%로 최고 성능을 달성했다. 특히 어려운 회전(Rotation) 과제에서 기존 최고 기법 대비 29.5포인트 높은 정확도를 기록했으며, 이는 상대적 개선율 53.2%에 해당한다. 코드와 데이터는 GitHub(github.com/dw-dengwei/active-spatial-reasoning)에 공개됐다.

공간 추론은 로봇 조작, 3D 장면 이해, 자율주행 등 VLM 기반 실세계 응용에서 핵심적으로 요구되는 능력이다. 수동적 관찰에 머무르는 대신 에이전트가 능동적으로 탐색하며 인지 지도를 구축하는 이번 접근법은 VLM의 공간 추론 한계를 극복하는 유력한 방향으로 주목된다.