MoVerse, 단일 이미지에서 실시간 탐색 가능한 3D 영상 세계 생성

연구팀이 단일 협시야각 이미지 한 장으로 인터랙티브하게 탐색 가능한 3D 세계를 실시간으로 생성하는 비디오 월드 모델 MoVerse를 발표했다. 좁은 시야각의 입력 이미지가 환경의 일부만 담고 있는 반면, 실제 로밍에는 완전한 주변 세계와 지속적인 기하학, 제어 가능한 카메라 움직임, 시간적으로 일관된 고품질 관측이 요구된다는 어려운 과제를 해결하는 것이 이 연구의 핵심이다.

MoVerse는 세계 구성과 관측 렌더링을 분리하는 방식으로 이 문제에 접근한다. 먼저 토폴로지 인식 확산(topology-aware diffusion)을 통해 입력 이미지를 중력 정렬 360도 파노라마로 확장해 누락된 시야각을 3D 추론 전에 복원한다. 이어 파노라마 기하학 인식 잔차 예측(panoramic geometry-aware residual prediction)으로 파노라마를 지속적인 3D 가우시안 스캐폴드로 끌어올려 밀도 높고 직접 렌더링 가능한 공간 메모리를 만들어낸다. 마지막으로 가우시안 조건부 영상 렌더러가 사용자 지정 카메라 경로를 따라 포토리얼리스틱 영상을 생성한다.

Futuristic 3D illustration of city skyscrapers with a dark, modern aesthetic. — 사진: Steve A Johnson / Pexels

렌더러의 실용성 확보를 위해 연구팀은 양방향 확산 교사 모델로 고품질 조건부 렌더링을 학습한 뒤, 이를 인과적 자기회귀 학생 모델로 증류해 지연 시간을 제한한 스트리밍을 가능하게 했다. 이 설계는 명시적 3D 표현의 제어 가능성과 장거리 일관성, 생성형 영상 모델의 지각적 품질을 동시에 달성한다. MoVerse는 단일 NVIDIA RTX4090 GPU에서 8FPS의 실시간 장면 로밍을 지원하며, 단일 이미지 기반 세계 생성을 인터랙티브 영상 출력으로 이어주는 실용적 경로를 제시한다.

단일 이미지 기반 인터랙티브 3D 장면 생성은 게임·시뮬레이션·로보틱스 등 다양한 분야에서 고비용 3D 데이터 수집의 대안이 될 수 있다. 추론 시 소비자용 GPU 한 장으로 실시간 성능을 달성했다는 점에서 실제 응용까지의 거리가 크게 좁혀진 연구로 평가된다.