단안 카메라 영상으로 로봇 조작 궤적 합성, ManiSplat 공개

실제 환경에서 로봇이 물체를 집고 이동하는 장면을 단안 카메라로 촬영한 영상만으로 고품질 3D 장면을 재구성하고 조작 궤적까지 합성하는 프레임워크 ManiSplat이 제안됐다. 연구팀은 최근 주목받는 3D 가우시안 스플래팅(3D Gaussian Splatting) 기술을 동적 로봇 환경으로 확장해 이 문제를 풀었다.

ManiSplat의 핵심은 그래프 구조 분리 표현(Graph-Structured Disentangled Representation)으로, 로봇 본체와 조작 대상 물체, 배경을 각각 독립적으로 최적화 가능한 가우시안 부분 필드로 분리하고 씬 그래프(scene graph) 안에 구조화한다. 이 분리가 없으면 복잡한 접촉 상호작용과 갑작스러운 자세 변화를 처리하기 어렵다. 여기에 과제 지향 시공간 정렬(Task-Oriented Spatio-Temporal Alignment) 모듈이 더해져, 조작 과제의 고유한 논리인 운동 단계와 기술 단계의 교차 패턴을 활용해 정확한 의사 정답 궤적을 구성한다. 마지막으로 광도와 기하학을 결합한 공동 최적화가 시간적 일관성과 물리적 정합성을 보장한다.

광범위한 실험을 통해 ManiSplat이 상호작용 기반 동적 장면을 높은 충실도와 제어 가능성으로 재구성하며, 하류 로봇 과제 수행과 정책 학습에 효과적으로 활용될 수 있음을 입증했다. 기존 접근법이 정적 환경 재구성이나 다중 카메라 설정을 필요로 했던 것과 비교해, 단안 자아 중심 영상만으로 시뮬레이션 준비 상태의 디지털 트윈을 구축할 수 있다는 점이 실용적 강점으로 꼽힌다.

로봇 조작 데이터 수집의 주요 병목이 비용과 환경 설정의 복잡성이라는 점에서, 기존 단안 영상 데이터를 재활용해 궤적을 합성하는 이 접근법은 로봇 학습의 데이터 효율을 높이는 방향을 제시한다. 가정용 로봇과 제조 자동화 등 다양한 응용 분야에서의 활용 가능성이 주목된다.