비주얼 장소 인식 경량화 위한 다양체 평탄화 어댑터 FlatVPR

연구팀이 비주얼 장소 인식(VPR, Visual Place Recognition)에서 지도의 경량성과 위치 파악 정확도 사이의 균형 문제를 해결하는 기하학적 보정 패러다임 FlatVPR을 제안했다. DINOv2-ViT-S/14와 같은 최첨단 파운데이션 모델은 강건한 의미론적 특징을 제공하지만, 이들의 잠재 다양체(latent manifold)는 두드러진 곡률을 보인다. 이로 인해 물리 공간에서 균일한 선형 이동이 특징 공간에서 비선형 궤적으로 투영되어, 앵커 포인트가 희소한 조건에서 신뢰할 수 있는 재구성을 방해한다.

FlatVPR의 핵심 아이디어는 임의의 두 인접 앵커 사이에 있는 디스크립터를 선형 보간으로 정확하게 재구성할 수 있는 특징 다양체 구조를 강제하는 것이다. 이를 위해 원시 파운데이션 특징에 잔차 변환을 적용하는 학습 가능한 어댑터를 도입하고, 인접 앵커를 잇는 선분으로부터 중간 특징의 편차를 최소화하는 풀백 평탄화 손실(Pullback Flatness Loss)로 다양체의 고유 곡률을 줄인다. 지도 구축은 기댓값-최대화(EM) 프레임워크 안에서 다양체 적응을 위한 M 단계와 최적 앵커 선택을 위한 E 단계로 분리해 설계했다.

A breathtaking aerial view of the rocky coastline in Busan, South Korea, showcasing vibrant colors. — 사진: Evgeniy Mironov / Pexels

NCLT 데이터셋을 대상으로 한 실험에서 FlatVPR 어댑터를 적용하면 앵커 간격이 100미터에 달하는 극도로 희소한 조건과 극단적인 계절 변화 환경에서도 성능이 크게 향상됨을 확인했다. 파운데이션 모델의 강력한 표현력을 유지하면서 기하학적 구조만을 교정하는 플러그앤플레이 방식은 자율주행, 드론 탐색, 실내 측위 등 다양한 위치 인식 응용 분야에 실용적인 이점을 제공할 것으로 기대된다.