영상 생성 모델로 미래 장면 변화를 예측한 뒤 행동을 생성하는 세계 행동 모델(WAM)이 로봇 조작 연구에서 유망한 방향으로 주목받고 있다. 그러나 연구팀의 실증 관찰에서 그럴듯한 시각적 미래를 생성한다고 해서 항상 정확한 행동이 추출되지는 않는다는 현상이 발견됐다. 어텐션 분석과 인과 개입 실험을 통해 원인을 진단한 결과, 행동 디코더가 과제 관련 상호작용 영역에 집중하지 못하고 과제와 무관한 영역의 변화에 민감하게 반응한다는 사실이 밝혀졌다.
연구팀은 이를 표현 불일치 문제로 규정했다. 시각 재구성에 최적화된 은닉 상태가 저수준 행동 제어에 유용한 형태로 정리돼 있지 않다는 것이다. 이 불일치를 해소하기 위해 연구팀은 AGRA(행동 기반 표현 정렬)라는 새로운 학습 목표를 제안했다. AGRA는 세계-행동 인터페이스를 정규화하기 위해 중간 영상 확산 특징을 기반 시각 인코더의 공간적으로 일관된 의미 표현과 정렬한다.
실제 조작 과제 실험에서 AGRA를 적용한 모델은 행동 디코더가 올바른 상호작용 영역에 집중하는 방식으로 세계 모델 표현이 더 행동 친화적으로 개선됐다. 물체 위치 파악 정확도와 어포던스 이해 능력이 향상됐으며, 과제와 무관한 영역의 변화에 대한 정책 강건성도 높아졌다. 분포 내 성능과 분포 외 일반화 모두에서 기준 세계 행동 모델을 일관되게 능가하는 결과가 나타났다.
로봇이 미래 장면을 영상으로 상상한 뒤 그에 맞춰 움직이는 세계 모델 방식은 시뮬레이션과 실제 환경을 잇는 유력한 접근으로 평가받아 왔다. 그러나 보기에 그럴듯한 미래 영상이 곧바로 정확한 동작으로 이어지지 않는다는 이번 관찰은, 시각 생성 능력과 실제 제어 능력이 별개일 수 있음을 보여준다. 영상 생성과 행동 제어를 매개하는 내부 표현을 정렬한다는 발상은 로봇 조작뿐 아니라 영상 기반으로 행동을 학습하는 다른 분야에도 적용될 여지가 있다. 다만 평가가 한정된 조작 과제에서 이뤄진 만큼, 더 복잡하고 다양한 환경으로의 확장 가능성은 추가 검증이 필요한 대목이다.














