MS 연구팀, 공간 메모리로 긴 카메라 이동도 장면 일관성 유지하는 영상 모델 공개

마이크로소프트(Microsoft) 리서치와 복수 대학 연구팀이 영상 생성 과정에서 장면의 공간 구조를 일관되게 유지하는 영상 월드 모델 Mirage를 공개했다. 카메라가 긴 경로를 이동하거나 출발점으로 돌아오는 경우에도 물체의 위치와 표면 질감이 흔들리지 않는 것이 핵심 특징이다. 기존 방식이 픽셀 기반 3D 포인트 클라우드를 활용하는 것과 달리, Mirage는 확산 모델이 내부적으로 사용하는 이미지 특성값을 그대로 3D 공간에 저장하는 잠재 공간 메모리 구조를 채택했다.

Mirage의 작동 방식은 시작 프레임에서 공간 메모리를 초기화한 뒤 영상을 구간 단위로 생성하는 구조다. 각 구간 생성 시 메모리에서 관련 정보를 꺼내 새 프레임에 투영하고, 생성된 내용을 다시 메모리에 기록한다. 움직이는 물체와 하늘은 메모리 기록 전에 제거해 안정된 기하학 구조만 장기 메모리에 남긴다. 알리바바의 오픈소스 영상 모델 Wan2.2를 기반으로 소규모 부가 모듈과 LoRA 어댑터로 미세 조정하는 방식을 취했다. 연구팀은 픽셀 공간을 거치는 이중 변환이 없어 정보 손실이 줄고 처리 속도가 높아졌다고 설명했다.

성능 검증에서 Mirage는 WorldScore 벤치마크와 RealEstate10K 폐루프 테스트에서 경쟁 모델들을 앞섰다. 폐루프 테스트는 카메라가 원래 위치로 돌아오는 경로에서 오차 누적을 측정하는 방식이다. 효율성 측면에서는 픽셀 기반 메모리 방식 대비 생성 속도가 크게 빨라지고 메모리 사용량도 대폭 줄었다고 연구팀은 밝혔다. 다만 움직이는 물체가 많은 복잡한 장면에서는 이 물체들이 메모리에서 제외되어 공간 메모리의 이점이 상대적으로 줄어든다는 한계도 인정했다.

영상 월드 모델은 단순히 클립 하나를 내부적으로 일관되게 생성하는 수준을 넘어, 장면을 탐색 가능하고 시간에 걸쳐 안정되게 유지하는 방향으로 발전하고 있다. 구글 딥마인드가 실시간 대화형 환경을 수분간 유지하는 Genie 3를 선보이는 등 이 분야의 경쟁이 활발하게 진행 중이다. Mirage는 메모리 저장 방식의 전환을 통해 장면 일관성과 계산 효율을 동시에 높이는 접근법을 제시한 사례로 평가된다.