넥스트 포싱, 다중 청크 예측으로 영상 생성 학습 속도와 정확도 동시 향상

자율주행·로보틱스용 월드 액션 모델(WAM) 훈련의 느린 수렴과 낮은 정확도 문제를 동시에 해결하는 다중 청크 예측 프레임워크 넥스트 포싱(Next Forcing)이 arXiv에 공개됐다. 대규모 언어 모델(LLM)의 다중 토큰 예측에서 착안해 영상 생성 세계 모델에 적용한 접근법이다.

기존 자기회귀 영상 생성 방식은 현재 청크에만 훈련 지도 신호가 집중돼 미래 역학에 대한 명시적 학습이 이뤄지지 않았고, 반복적인 영상 노이즈 제거로 추론 속도도 느렸다. 넥스트 포싱은 경량 보조 모듈을 주 모델에 추가해 다음 청크, 두 번째 미래 청크, 세 번째 미래 청크 등 여러 시간 지평을 동시에 디노이징하는 훈련 목적함수를 도입했다. 보조 모듈들은 인과적 연쇄 구조를 이루며 주 모델 여러 레이어의 중간 특성을 융합해 미래 역학을 예측하고, 그 결과가 다시 주 모델로 다중 시간 척도 지도 신호를 돌려보낸다.

초당 50프레임 조건에서 5천 훈련 스텝 기준으로 링봇-VA(LingBot-VA) 대비 93.1%의 상대적 성능 향상을 달성했으며 수렴 속도는 2.3배 빨라졌다. 로보틱스 벤치마크 RoboTwin에서 클린·랜덤 환경 각각 94.1%와 93.5%로 최고 성능을 기록했다. 추론 단계에서는 보조 모듈이 현재 청크를 처리하는 동안 다음 청크를 병렬로 예측해 추론 속도를 2배 끌어올렸다. 물리 법칙 준수를 평가하는 파이월드(PhyWorld) 벤치마크와 일반 영상 사전 훈련에서도 FVD(Fréchet 영상 거리)가 50% 이상 줄어드는 성과를 보였다.

넥스트 포싱은 영상 기반 세계 모델의 훈련 효율과 추론 속도라는 두 가지 병목을 단일 프레임워크로 다뤘다는 점에서 주목받는다. 로보틱스와 자율주행 시스템에서 고프레임율 세계 모델의 실용화를 앞당길 수 있는 기반 기술로 평가된다.