2D 영상만으로 MLLM의 3D 공간 지능을 키우는 GeoVR 프레임워크 공개

대규모 3D 데이터셋 없이 일반적인 2D 영상 시퀀스만으로 멀티모달 대규모 언어 모델(MLLM)의 3D 공간 인식 능력을 향상시키는 새로운 프레임워크 GeoVR이 공개됐다. 기존 MLLM은 2D 의미 이해에는 강하지만 영상 프레임 간 기하학적·공간적 일관성을 유지하는 내재적 3D 인식 능력이 부족하다는 한계를 안고 있었다.

GeoVR은 단순히 특징을 혼합하는 방식 대신 사전 학습된 3D 기반 모델로부터 기하학 지식을 증류(distillation)해 MLLM 내부의 표현 공간 자체를 재구조화한다. 이를 위해 네 가지 보완적 기하학 목표를 동시에 학습하는 다중 목표 전략을 채택했다. 프레임 간 카메라 포즈 추정으로 시점 변화를 내재화하고, 밀집 깊이 맵 회귀로 물리적 거리 정보를 고정하며, 메트릭 스케일 인자 예측으로 실세계 크기 감각을 부여하고, 다중 스케일 3D 특징 증류로 중간 표현 공간을 3D와 정렬하는 방식이다.

A modern abstract 3D render featuring geometric shapes in vivid orange tones. — 사진: Steve A Johnson / Pexels

이 네 가지 물리적·기하학적 제약에 의해 안내받은 모델 내부 표현은 자연스럽게 강력한 3D 인식 능력을 갖추게 된다고 연구팀은 설명한다. 공간 추론 관련 벤치마크 실험에서 GeoVR은 최고 수준의 성능을 달성했으며, 이는 대규모 3D 데이터 없이도 2D 영상 학습만으로 공간 지능을 확보할 수 있다는 새로운 패러다임을 제시하는 결과다.

자율주행·로봇공학·증강현실 등 현실 세계의 공간 이해가 필수적인 분야에서 MLLM의 활용 가능성을 가로막던 3D 인식 한계를 데이터 희소성이라는 현실적 제약 속에서 우회했다는 점에서 GeoVR은 공간 지능형 기반 모델 연구의 새로운 방향성을 열었다는 평가를 받는다.