엔비디아(NVIDIA)가 로봇 파운데이션 모델의 새로운 범주인 세계-행동 모델(WAM, World-Action Model)의 부상을 분석한 기술 문서를 공개했다. WAM은 대규모 영상 데이터로 사전 학습된 비디오 생성 모델의 시공간 이해 능력을 로봇 행동 예측과 결합하는 방식이다. 이는 언어-비전 모델을 기반으로 하는 기존 VLA(Vision-Language-Action) 방식과 대비되는 접근법으로, 로봇이 별도의 방대한 로봇 시연 데이터 없이도 영상에서 학습한 물리적 세계 이해를 바탕으로 행동을 생성할 수 있다는 점이 핵심이다.
엔비디아는 자체 개발한 DreamZero를 WAM의 대표 사례로 제시했다. DreamZero는 Wan 2.1-I2V-14B-480P 비디오 백본을 행동 생성 모델로 적응시킨 것으로, RoboArena 리더보드에서 1750점을 기록해 비교 대상인 Pi-0.5(1622점)를 웃도는 성능을 보였다. 다만 행동 튜닝에 약 8.6~9.0 제타플롭스(ZFLOPs)의 연산이 필요해 VLA 방식(0.56~0.77 ZFLOPs)에 비해 훈련 비용이 상당히 크다. 추론 속도 측면에서도 WAM 방식은 표준 VLA 대비 3~4배 느린 590~800밀리초 수준이다.
엔비디아는 WAM의 세 가지 설계 방향도 구분했다. 미래 프레임을 먼저 생성한 뒤 행동을 역산하는 역동역학(Inverse Dynamics) 방식, 영상과 행동을 동시에 출력하는 공동 예측(Joint Prediction) 방식, 그리고 영상 생성을 추론 시 생략하고 특징만 추출하는 표현 전용(Representation-Only) 방식이 그것이다. Being-H0.7처럼 자아 관점 인간 영상 20만 시간과 로봇 시연 1만 5000시간을 결합한 대규모 학습 사례도 언급됐다. 엔비디아는 WAM이 VLA와 더불어 로봇 파운데이션 모델의 두 번째 핵심 접근법으로 자리 잡을 것이며, 두 방식을 결합한 하이브리드가 최종 승자가 될 수 있다고 전망했다.














