E-TTS, 로봇 조작용 테스트타임 스케일링 프레임워크 제안

로봇이 물체를 집거나 조작하는 임베디드 AI 태스크에서 추론 시간(테스트타임) 연산을 확장해 성능을 높이려는 연구가 이어지고 있다. 그러나 기존 시도들은 두 가지 핵심 한계를 해소하지 못했다. 첫째, 추론 능력이 정책 성능을 높이는 것은 확인됐지만 그 스케일링 메커니즘이 충분히 연구되지 않았다. 둘째, 로봇 조작은 본질적으로 순서가 긴 연속 작업이어서 현재 관측만으로는 행동을 결정하기 어렵고 과거 이력 정보가 반드시 필요한데, 기존 스케일링 방법은 이 역사적 맥락을 제대로 활용하지 못했다. arXiv에 공개된 연구(논문 ID: 2606.27268)는 이 두 문제를 함께 해결하는 프레임워크 E-TTS를 제안한다.

E-TTS는 모듈식 플러그앤플레이 구조로 설계됐으며, 역사적 컨텍스트를 저장하는 이력 버퍼를 도입해 순차적 작업에서 맥락 단절 문제를 해결했다. 주요 구성 요소로는 추론과 행동의 공동 샘플링 및 채점, 비전-언어 검증자를 활용한 평가, 피드백 생성을 포함한 폐쇄 루프 반복 정제 방식이 있다. 다양한 태스크 요구 사항에 맞게 설정을 유연하게 조정할 수 있다는 점도 특징이다.

연구팀은 4개 벤치마크, 6개 환경, 3종의 로봇 형태, 4개 기반 비전-언어-행동 모델에 걸쳐 E-TTS를 평가했다. 시뮬레이션 환경에서는 최대 33.14%, 실제 물리 환경에서는 최대 26.62%의 성능 향상이 확인됐으며, 이 결과는 추가 학습 데이터 없이 달성됐다. 테스트타임 연산 확장이 언어 모델에 이어 구현 AI 영역에서도 효과적임을 폭넓은 실험으로 보여준 이 연구는, 로봇 조작 정책의 추론 능력과 역사적 맥락 활용을 결합하는 방향으로 연구 흐름이 이어질 것임을 시사한다.