HumanScale, 로봇 데이터 대체하는 1인칭 인간 영상 사전학습 연구

체화형(embodied) 기반 모델 연구에서 1인칭 시점 인간 영상이 기존 원격조작 로봇 데이터를 능가할 수 있다는 실증 결과가 제시됐다. ‘HumanScale’로 명명된 이 연구는 사전학습 데이터 원천으로서 에고센트릭(egocentric) 인간 영상과 로봇 궤적 데이터를 고정된 사후학습·검증 프로토콜 아래 체계적으로 비교했다.

연구팀에 따르면 동일한 사전학습 데이터 규모 조건에서, 에고센트릭 데이터로 사전학습한 모델은 실제 로봇 행동 예측 검증 손실(validation loss)이 원격조작 로봇 데이터 대비 24% 낮았다. 분포 내(in-distribution) 로봇 작업 실행 성공률은 52.5% 더 높았고, 분포 외(out-of-distribution) 작업에서는 90% 더 높은 성공률을 기록했다. 이는 에고센트릭 데이터가 단순한 대체 수단이 아니라 오히려 우월한 사전학습 원천이 될 수 있음을 시사하는 결과다.

연구가 주목하는 배경에는 로봇 데이터 수집의 구조적 한계가 있다. 원격조작 방식으로 수집한 실제 로봇 궤적 데이터는 정밀한 행동 감독(action supervision)과 구현체 정렬(embodiment alignment) 면에서 강점이 있지만, 수집 비용이 높고 행동·환경의 다양성이 제한적이다. 이에 반해 에고센트릭 인간 영상은 훨씬 낮은 비용으로 대규모·다양한 데이터를 확보할 수 있어 스케일업 가능성이 크다. 다만 효과성이 검증된 사례가 부족했는데, HumanScale 연구가 이 공백을 채우는 데 기여했다.

연구팀은 에고센트릭 데이터가 이 같은 성과를 내려면 세밀하게 설계된 필터링 및 레이블링 파이프라인이 전제되어야 한다고 강조했다. 이를 통해 다양한 세계 표현(world representation)을 폭넓게 학습한 뒤, 소량의 레이블된 로봇 데이터로 행동 공간을 정렬하는 2단계 패러다임을 제안한다. 연구팀은 이번 결과가 로봇 데이터 수집 전 데이터 품질 평가와 에고센트릭 데이터 활용에 대한 폭넓은 탐구를 촉진하는 계기가 되기를 기대한다고 밝혔다.