훈련 없이 언어·시각 통합 탐색…PlatonicNav 프레임워크 제안

학습 데이터 없이 시각 정보만으로 언어 목표를 향해 탐색할 수 있는 프레임워크 ‘PlatonicNav’가 제안됐다. 이 연구는 체화 시각 탐색(embodied visual navigation) 분야에서 기존 방법론이 갖는 한계를 다루는데, 기존 방식은 시각·언어 탐색(VLN)과 물체 목표 탐색(ObjNav) 작업을 통합하면서도 아키텍처 결합, 혼합 학습, 대형 비전-언어 모델 사전 학습에 의존해 왔다. 연구팀은 독립적으로 학습된 시각 인코더와 언어 인코더가 이미 공통적인 의미 구조를 공유할 수 있다는 ‘플라톤적 표현 가설(Platonic Representation Hypothesis)’을 체화 탐색 영역에 적용했다.

PlatonicNav는 이 가설을 바탕으로 시각 전용 ObjNav, 크로스모달 ObjNav, VLN이라는 세 가지 탐색 방식을 동일한 객체 중심 의미 다양체에 대한 서로 다른 인터페이스로 재정의한다. 핵심 구성 요소인 ‘플라톤 위상 지도(Platonic Topological Map)’는 자기지도(self-supervised) 시각 인코더로부터 기하학적 거리와 의미적 거리를 융합해 구성되며, 시각-언어 쌍 데이터 없이 블라인드 매칭(blind matching) 방식으로 언어 목표를 지도에 대응시킨다. 이를 통해 명시적인 크로스모달 지도 학습 없이도 언어로 기술된 목표 지점을 향해 탐색할 수 있다.

A sleek autonomous food delivery robot navigates a sunny urban landscape, showcasing modern innovation. — 사진: Kindel Media / Pexels

연구팀은 HM3D-IIN, OVON, MP3D 기반 R2R-CE 등 시뮬레이션 벤치마크에서 실험을 진행했으며, Unitree Go2 로봇에 직접 배포해 실세계 환경에서도 검증했다. 실험 결과 PlatonicNav는 명시적인 크로스모달 학습 없이도 다양한 작업, 모달리티, 플랫폼에 걸쳐 일반화 성능을 보였다고 논문은 밝혔다. 이 접근 방식은 학습 데이터 구축 비용이 높고 모달리티 간 지도 학습이 어려운 환경에서 로봇 탐색 시스템을 구성하려는 연구에 시사점을 준다. 코드는 깃허브(github.com/AIGeeksGroup/PlatonicNav)에 공개됐다.