로봇 학습에서 가장 근본적인 정책 인수분해(factorization)인 세계와 과제의 분리를 체계화한 프레임워크가 arXiv에 발표됐다. 연구팀은 세계-과제 인수분해가 원칙적으로 적용될 수 있는 조건을 규명하고, 이를 세 가지 이질적인 로봇·환경·과제·감각운동 모달리티 문제에 적용해 엔드투엔드 기준 모델과 분석적 휴리스틱 양쪽을 모두 능가하는 결과를 보였다. 프레임워크는 분포 외 설정에 제로샷으로 일반화하며 재훈련 없이 실제 하드웨어로 전이된다.
로봇 학습은 제약, 팀 구성원, 환경의 새로운 조합에 일반화할 수 있는 정책을 요구한다. 기존 방법은 데이터 확장에서 구조가 자연스럽게 나타나기를 기대하는 방식부터 계층 구조, 스킬 라이브러리, 학습된 특화 모듈 등 수작업 설계까지 넓은 스펙트럼에 걸쳐 있다. 연구팀은 이 중 세계 요인과 과제 요인의 분리가 가장 근본적인 인수분해라고 주장한다. 세계 요인은 체화된 시스템과 환경의 속성으로서 의도와 무관하게 존재하고, 과제 요인은 세계가 허용하는 것에 대한 과제 논리에 의해 정의된다.

연구팀은 이 비대칭성을 베이지안 모델 증거를 통해 형식화했다. 세계-과제 인수분해는 데이터 생성 과정에 정렬하고, 분석적 세계 모델을 통해 높은 우도를 유지하며, 과제 파라미터에 대한 오컴의 면도날(Occam’s razor) 패널티를 줄인다. 구체적 구현으로는 합성적이고 과제 특화 데이터 없이 작동하며 비용 경사를 액추에이터로 전파하는 미분 가능 그래프인 AICON을, 경사를 두 요인 사이의 인터페이스로 활용하는 소형 학습 정책과 결합했다. 경사는 그래프를 통해 세계 구조를, 비용을 통해 과제 구조를 전달해 저차원 학습을 가능하게 하면서 구조적 일반화를 보존한다.
로봇 정책의 일반화 능력은 산업 자동화, 서비스 로봇, 재난 대응 등 실제 배치 시나리오에서 필수 요건이다. 세계-과제 인수분해는 재훈련 없이 다양한 로봇 몸체와 환경에 전이 가능한 정책을 구축하는 원리적 경로를 제시하며, 데이터 효율적 로봇 학습 연구의 토대로 활용될 가능성이 있다.














