로봇 정책 모델, 단일 스텝 동작 생성으로 10배 추론 단축

시각·언어·행동 모델(VLA, Vision-Language-Action Model)의 동작 생성 방식을 단순화한 연구가 arXiv에 공개됐다. 논문 ‘Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models’는 로봇 정책 학습에서 이미지 생성용 확산(diffusion) 모델의 반복적 노이즈 제거 절차를 그대로 차용하는 기존 접근에 의문을 제기한다. 연구팀은 VLA의 동작 생성이 이미지 생성과 구조적으로 다르다고 주장한다. 이미지 생성은 고차원 픽셀을 만들어야 하지만, 로봇 동작 예측은 풍부한 관측·언어·상태 정보를 조건으로 받아 저차원의 짧은 동작 시퀀스만 출력하면 되기 때문이다.

연구팀이 제안한 핵심 방법은 별도의 교사 모델이나 지식 증류(distillation) 단계 없이, 훈련 시간 분포를 고노이즈(high-noise) 상태 쪽으로 편향시키는 것이다. 보조 목적 함수도 추가하지 않고 표준 속도 예측(velocity prediction)을 그대로 유지했다. 논문은 먼저 MNIST 격자-시퀀스 과제로 이 효과를 제어 실험으로 분리 확인한 뒤, 로봇 정책 벤치마크인 LIBERO, LIBERO-Plus, LIBERO-Pro에서 광범위한 실험을 수행했다. 고노이즈 편향 일정으로 훈련한 단일 스텝 정책은 동일한 레시피로 훈련한 10스텝 디코딩과 대체로 동등한 성능을 보였으며, LIBERO 표준 과제에서는 균일 시간 분포로 훈련된 10스텝 정책을 능가하는 결과도 얻었다.

white robot — 사진: Possessed Photography / Unsplash

논문은 1.4B 파라미터 VLM(비전·언어 모델)에 3000만 파라미터 동작 헤드를 결합한 모델로 LIBERO-Long 과제에서 단일 스텝 디코딩이 95.6%의 성공률에 도달했다고 보고했다. 실제 로봇 검증은 두 팔을 사용하는 이중 팔(bimanual) 로봇으로 소규모 교차 아키텍처 실험을 진행해 같은 경향을 확인했다. 이번 연구의 의의는 이미지 생성 분야에서 개발된 복잡한 소수 스텝 확산 기법을 도입하지 않아도 강력한 단일 스텝 VLA 동작 생성이 표준 확산 훈련만으로 가능함을 보였다는 점이다. 이는 로봇 정책 추론 시간을 대폭 줄이고 실시간 제어에 적합한 경량 파이프라인을 구축하는 데 실질적인 영향을 줄 수 있다.