WALL-WM, 이벤트 단위 로봇 행동 학습 모델 제안

연구팀이 로봇의 비디오-행동 학습 방식을 기존 고정 길이 청크 중심에서 의미론적 이벤트 기반으로 전환하는 세계 행동 모델(WAM) WALL-WM을 제안했다. 기존 세계 행동 모델들은 멀티모달 또는 비디오 파운데이션 모델을 초기화 기반으로 삼아 현재 관측과 지시에 조건부로 고정 길이 행동 청크를 예측하는 방식을 채택해 왔다. 이 방식은 구현이 편리하지만 언어는 의미론적 목표와 이벤트를 표현하고, 시각 정보는 연속적인 장면 변화로 전개되며, 행동은 제어 수준의 시간 척도로 작동한다는 세 영역 간의 근본적인 입도(granularity) 불일치 문제를 안고 있다는 것이 연구팀의 지적이다.

WALL-WM은 이 불일치를 해소하기 위해 지도 학습과 데이터 구성 모두를 의미론적 이벤트 중심으로 재편한다. 이벤트 기반 VLA(비전-언어-행동) 사전 학습을 이벤트 단위 캡션과 클러스터 균형 샘플링으로 구축한 데이터 생태계와 결합함으로써, 다양한 행동 유형과 장면, 과제 구조에 걸쳐 확장 가능한 학습을 가능케 한다. 추론 시에는 다음 이벤트 서술을 입력 받아 가변 길이 실행 청크를 처리하는 이벤트 모드와, VLM에 계단식 디코딩(Staircase Decoding)을 적용해 기존 고정 길이 청크 추론을 유지하는 통합 모드를 함께 지원한다.

A white and black toy humanoid robot in a studio setting casting a shadow. — 사진: Pavel Danilyuk / Pexels

WALL-WM은 Muon 옵티마이저 기반의 대규모 사전 학습 인프라와 결합해 범용 세계 행동 모델의 규모 확장을 위한 실용적인 방법론을 제시한다. 실험에서는 언어, 장면, 과제 등 다양한 조건에 걸쳐 광범위한 일반화 능력을 보였으며, 대규모 실세계 일반화 평가에서 최고 수준의 성능을 달성했다고 연구팀은 밝혔다. 이 연구는 고정된 예측 창에 강제로 끼워 맞추는 기존 접근의 한계를 벗어나, 언어·시각·행동의 자연스러운 시간 단위를 존중하는 로봇 학습의 방향성을 제시한다는 데 의미가 있다.