원거리 랜드마크 크기 오추정 문제 해결하는 메트릭 깊이 추정 연구

단안(monocular) 기하 추정 기반 모델들이 원거리 랜드마크와 광활한 풍경을 체계적으로 과소 추정하는 이른바 스케일 붕괴(scale-collapse) 현상을 규명하고, 이를 해결하는 새로운 데이터셋과 학습 방법론이 arXiv에 공개됐다. 연구팀은 이 성능 격차가 기존 메트릭 스케일 데이터셋의 하드웨어 제약에서 비롯된 훈련 데이터 병목 현상 때문이라는 가설을 제시했다. 기존 데이터셋은 차량 탑재 라이다로 수집된 균질한 데이터나 단거리 실내 스캔, 또는 실세계의 의미 복잡성이 결여된 합성 데이터에 편중돼 있다는 것이다.

연구팀은 이 격차를 메우기 위해 MetricScenes라는 새 데이터셋을 구축했다. 인터넷 사진 컬렉션과 스테레오 영상 등 다양한 출처에서 실제 환경 데이터를 수집해 메트릭 근거를 확보하는 방식이다. 각 장면의 카메라 포즈와 초기 깊이 맵은 기성 기법으로 추정했으며, 지오태그 메타데이터와 알려진 스테레오 카메라 기준선을 활용해 절대 스케일을 복원했다. MetricScenes에서 도출된 깊이 맵의 품질은 새로 개발한 2단계 포아송 완성(Poisson completion) 기법으로 향상했다.

A vibrant abstract cityscape of neon red lights, creating a futuristic urban skyline. — 사진: Pachon in Motion / Pexels

MetricScenes로 MoGe-2 모델을 파인튜닝한 결과 스케일 붕괴 현상이 크게 완화됐으며, 제약 없는 개방형 도메인 장면에서 메트릭 정확도가 향상됐다. 동시에 표준 벤치마크에서 최고 수준의 성능도 유지됐다. 연구 제목인 ‘개선문을 줄여버렸다(Honey, I Shrunk the Arc de Triomphe!)’는 원거리 랜드마크를 실제보다 작게 추정하는 스케일 붕괴 현상을 유머러스하게 표현한 것이다.

메트릭 스케일 단안 깊이 추정은 자율주행, 증강현실, 로봇 탐색 등 실세계 크기 정보가 중요한 응용 분야에 필수적인 기술이다. 기존 모델들이 광각 또는 원거리 장면에서 일관되게 실패하던 스케일 붕괴 문제를 데이터 다양성 확보라는 실용적 접근으로 해결한 이번 연구는 이 분야의 실용화 가능성을 높이는 기여로 평가된다.