비전-언어-액션(VLA, Vision-Language-Action) 모델의 내부 표현을 조종해 로봇 행동을 제어하는 연구에서, 기존 접근법이 고정된 조종 계수를 사용해 사실상 개방 루프(open-loop) 방식으로 동작한다는 한계가 확인됐다. 이는 로봇처럼 태스크 상태와 개념 오류가 시간에 따라 변하는 구현(embodied) 제어 환경에서 과보정·진동·태스크 성공률 저하로 이어지는 문제를 야기한다. 특히 속도나 움직임 부드러움 같은 시간적 행동 특성에서 이 문제가 두드러진다.
연구팀은 이 문제를 해결하기 위해 CTRL-STEER라는 폐쇄 루프(closed-loop) 프레임워크를 제안했다. 핵심 아이디어는 표현(representation)과 조절(regulation)을 분리하는 것이다. 개별 뉴런이 시간적 개념을 직접 제어한다고 가정하는 대신, 동작 정렬 잔차 방향(motion-aligned residual directions)을 따라 조종하면서 피드백 컨트롤러가 개입 강도를 온라인으로 조절한다. 연구팀은 이 프레임워크에 PID 컨트롤러와 강화학습 기반 컨트롤러 두 가지를 구현했다.

미세 조정된 OpenVLA 정책을 사용해 LIBERO 태스크 스위트 4종에서 실험한 결과, CTRL-STEER는 고정 계수 기준선 대비 더 안정적인 개념 조절과 조종-태스크 성공률 간의 균형을 달성했다. 기반 모델의 수정이나 재훈련 없이 이런 효과를 낼 수 있다는 점이 실용적 강점이다. 이 연구는 VLA 모델의 내부 상태를 실시간으로 모니터링하고 개입하는 폐쇄 루프 방식이 구현 AI의 신뢰성을 높이는 유망한 방향임을 실증적으로 보여준다.
VLA 모델은 로봇 조작·자율 이동 등 실세계 AI 구현 연구의 핵심으로 떠오르고 있다. 단순히 더 강력한 모델을 학습시키는 것만으로는 배치 환경의 예측 불가능한 변화에 대응하기 어렵기 때문에, CTRL-STEER처럼 추론 시점에 모델 내부를 동적으로 조절하는 방법론이 주목받고 있다. 산업용 로봇부터 서비스 로봇까지 자율 행동의 안정성이 요구되는 분야 전반에서 이 접근법의 적용 가능성이 검토될 전망이다.


