RoboDream: 구성적 월드 모델로 로봇 학습 데이터 합성 비용 낮춘다

로봇 학습의 핵심 병목은 대규모의 다양한 시연 데이터를 실제 환경에서 수집하는 데 드는 시간과 비용이다. 원격조작(teleoperation)을 통한 실환경 수집은 비용이 높고 시간이 많이 들며, 비디오 확산 모델(video diffusion model)을 활용한 기존 생성 방식은 표면적인 시각 변화에 그치거나 물리적으로 실현 불가능한 동작을 포함하는 체화 환각(embodiment hallucination) 문제를 겪는다. 새로 제안된 RoboDream은 이 한계를 넘기 위해 로봇 동작과 환경 합성을 분리하는 방식을 택한 구성적 월드 모델(compositional world model)이다.

RoboDream의 핵심 아이디어는 렌더링된 로봇 동작을 생성의 앵커로 삼고, 명시적인 장면 및 물체 사전 정보(priors)에 조건을 걸어 새로운 물체, 새로운 장면, 새로운 시점에서 광사실적인 시연 영상을 합성하는 것이다. 이 구조는 두 가지 데이터 확장 능력을 열어준다. 하나는 ‘검색 및 재탄생(retrieval and rebirth)’으로, 기존 궤적을 새로운 컨텍스트에 재활용해 추가 동작 데이터 없이도 다양한 시나리오를 생성하는 방법이다. 다른 하나는 ‘소품 없는 원격조작(prop-free teleoperation)’으로, 조작자가 빈 공간에서 동작만 수행하면 모델이 목표 물체와 장면을 사후에 합성하므로 리셋 시간을 없앨 수 있다.

A robotic hand holds a glowing celestial sphere against a blue background, evoking a futuristic theme. — 사진: Tara Winstead / Pexels

연구팀은 다양한 조작 작업에 걸친 실환경 실험을 통해, RoboDream으로 생성한 데이터가 하위 정책 성능을 일관되게 향상시키고 실환경 데이터 요구량을 크게 줄인다는 결과를 확인했다. 로봇 데이터 합성 연구에서 물리적으로 타당한 시연을 저비용으로 생성하는 것은 로봇 일반화의 핵심 도전으로 꼽혀왔다. RoboDream의 접근은 실환경 수집과 생성 모델 사이의 격차를 좁히는 방향으로, 다양한 로봇 플랫폼과 작업 유형에 적용 가능한 범용 데이터 확장 도구로서의 가능성을 제시한다.