로봇 조작 작업은 물체에 접근하는 이동 구간과 실제 접촉이 이루어지는 구간이 요구하는 동작 속도가 서로 다르다. 전자는 빠른 실행이 효율적인 반면 후자는 정밀하고 느린 움직임이 필요하다. 그러나 기존 VLA(Vision-Language-Action, 비전-언어-행동) 모델들은 훈련 데모로부터 단일 고정 속도만을 물려받아 이 두 구간을 구분하지 못한다는 한계가 있었다. 모델 압축, KV 캐시 재사용, 강화학습 등을 통해 VLA를 가속하려는 기존 시도들도 하나의 고정 속도에서 다른 고정 속도로 전환할 뿐이었고, 감속 방향은 거의 탐구되지 않은 상태였다.
연구팀은 예측된 행동의 크기(magnitude) 자체가 로봇의 이동 속도를 결정한다는 점에 주목해 TempoVLA를 제안했다. TempoVLA는 명시적 속도 조건을 입력받아 실행 속도를 직접 제어할 수 있는 단일 VLA 구조다. 두 가지 핵심 요소를 결합하는데, 데이터 측면에서는 가변 속도 궤적 증강(VSTA, Variable-Speed Trajectory Augmentation)을 통해 기존 시연 데이터를 원하는 목표 속도로 재조정한다. 동작을 병합하거나 분할하는 방식으로 속도를 바꾸되 모션의 의미는 그대로 보존한다. 모델 측면에서는 이 속도 정보를 정책에 직접 입력하는 조건화 메커니즘을 도입했다. 실험 결과, VSTA는 요청한 속도를 미미한 모션 오차 범위 안에서 달성했으며 기본 1배속 성능도 데이터 활용도 향상을 통해 끌어올렸다.
시뮬레이션과 실제 작업 환경 모두에서 TempoVLA는 가속과 감속 양방향으로 유연한 속도 제어가 가능함을 확인했다. 나아가 대형 멀티모달 모델과 협력할 때는 동적 속도 제어가 실현됐는데, 저위험 이동 구간에서는 빠르게 진행하고 고위험 접촉 구간에서는 스스로 속도를 낮추는 방식이다. 이는 산업 현장에서 안전과 효율을 동시에 요구하는 로봇 조작 시나리오에서 실용적 가치를 가질 수 있다. 고정 속도 단일 정책의 한계를 넘어 작업 맥락에 따라 속도를 조율하는 VLA 연구의 방향을 보여주는 사례로 평가된다.














