영상 세계 모델(Video World Model)에서 장면의 3D 공간 일관성을 유지하는 새로운 방법이 제안됐다. 기존 접근법은 RGB 이미지 공간에서 포인트 클라우드 메모리를 구성해 장면 정보를 저장했는데, 이 방식은 픽셀 공간을 거치는 반복 렌더링과 VAE 인코딩으로 인해 계산 비용이 높고 학습된 잠재 표현의 풍부한 정보를 손실하는 문제가 있었다.
연구진은 이를 해결하기 위해 잠재 공간 메모리(Latent Spatial Memory) 개념을 도입하고, 이를 구현한 Mirage 프레임워크를 제안했다. Mirage는 깊이 정보를 활용한 역투영(depth-guided back-projection)으로 잠재 토큰을 3D 공간으로 올리고, 잠재 공간 내 직접 뒤틀기(latent-space warping)를 통해 새로운 시점을 합성한다. 이 방식은 픽셀 공간 재구성 과정을 완전히 제거해 정보 손실과 반복 인코딩 부담을 동시에 없앤다.
연구진은 잠재 공간 메모리가 명시적 3D 기준선 대비 종단 간 영상 생성 속도와 메모리 효율을 크게 개선했다고 보고했다. Mirage는 영상 생성 품질 지표에서 경쟁력 있는 성능을 보였고, 공개 데이터셋에서도 안정적인 재구성 품질을 나타냈다. 확산 모델이 이미 보유한 기하학적 사전 지식을 활용한다는 점이 효율 향상의 핵심 요인으로 분석된다.
이 연구는 비디오 생성 모델이 연속 프레임 간 공간 일관성을 유지하면서도 실용적인 계산 효율을 달성할 수 있음을 보여준다. 잠재 공간 내에서 3D 기억을 직접 다루는 통합 정식화는 차세대 영상 세계 모델 아키텍처 설계에 새로운 방향을 제시한다.














