로봇 모방 학습, 저품질 데이터에서도 기존 대비 33% 성능 향상

고품질 로봇 시연 데이터는 수집 비용이 높고 시간이 많이 소요되는 반면, 품질이 낮거나 분포를 벗어난 데이터는 풍부하게 존재한다. 이 격차를 메우기 위해 연구팀이 저품질 데이터를 포함한 다양한 데이터 소스에서 유용한 특징만 선별적으로 학습하는 Ambient Diffusion Policy를 제안했다. 기존 공동 훈련 방식이 저품질 샘플에서 유의미한 특징과 유해한 특징을 분리하는 데 실패하는 문제를 해결하기 위한 연구다.

핵심 아이디어는 공동 훈련에 새로운 축을 도입하는 것이다. Ambient Diffusion Policy는 저품질 데이터의 기여를 노이즈가 높은 확산 시간대와 낮은 확산 시간대로만 제한한다. 연구팀은 로봇 행동 데이터가 스펙트럼 거듭제곱 법칙을 따른다는 사실을 근거로 삼아, 최적 확산 정책이 전역에서 국소로 이어지는 계층 구조와 국소성이라는 두 가지 중요한 성질을 갖는다는 점을 이론적으로 정형화했다.

a bunch of screws that are laying on a table — 사진: Carmen Keuper / Unsplash

실험에서는 잡음이 섞인 궤적, 시뮬레이션과 실제 환경의 차이, 과제 불일치, 대규모 데이터 혼합 등 네 가지 유형의 저품질 데이터를 여섯 개 과제에 걸쳐 검증했다. 이질적인 데이터 품질과 비정형 분포 이동을 포함하는 대규모 데이터셋인 Open X-Embodiment로 확장했을 때 기존 공동 훈련 기준 대비 최대 33% 성능 향상이 확인됐다. 연구팀은 이 방법이 다양한 출처의 저품질 시연 데이터를 활용 가능한 학습 자원으로 전환하는 데 기여할 것으로 전망했다.

로봇 정책 학습에서 데이터 수집 비용은 오랫동안 발목을 잡아온 병목이었다. 사람이 직접 로봇을 조작해 만드는 고품질 시연은 수량을 늘리기 어렵고, 그렇다고 잡음 섞인 데이터를 그대로 섞으면 오히려 정책 성능이 떨어지는 딜레마가 있었다. Ambient Diffusion Policy는 데이터를 버리거나 전량 사용하는 양자택일 대신, 확산 모델의 시간 축이라는 새로운 조절 변수를 끼워 넣어 저품질 데이터의 기여를 부분적으로만 받아들이는 절충안을 제시한다. 잡음 궤적, 시뮬레이션과 현실의 간극, 과제 불일치를 한 틀에서 다룬다는 점에서, 서로 다른 로봇과 환경에서 모은 이종 데이터를 묶어 쓰려는 범용 로봇 정책 연구 흐름과도 맞닿아 있다.