구현형 AI(Embodied AI)를 위한 월드 모델은 관측값을 예측하는 것을 넘어 물리 법칙의 구조를 명시적으로 표현해야 한다는 연구 결과가 arXiv에 공개됐다(논문 번호 2605.30542). 연구팀은 현행 관측 예측형 월드 모델이 시각적으로 그럴듯한 결과를 내지만, 외부 개입(intervention) 상황에서 물리적으로 틀린 행동을 추천하거나 상호작용 결과를 잘못 예측하는 구조적 결함을 갖는다고 지적했다. 핵심 문제는 겉보기에 동일한 장면도 서로 다른 물리 시스템일 수 있다는 점으로, 단순 예측 모델은 이 차이를 구분하지 못한다.
연구팀은 이에 대한 해결책으로 ‘쿼리 조건부(query-conditioned)’ 모듈형 월드 모델 설계를 제안했다. 이 모델은 환경 표현·잠재 상태 및 파라미터 추정·행동 명세·개입 동역학·쿼리 수준 응답이라는 다섯 가지 모듈로 구성된다. 자율 오케스트레이터가 입력된 질의에 따라 적합한 추상 수준을 선택하고 호환 가능한 학습·구조 컴포넌트를 조합한다. 닫힌 형식의 물리학 공식이 없거나 불확실한 경우 전이 모델은 분석적·시뮬레이션·학습 기반·하이브리드 방식 중 선택할 수 있지만, 개입 결과를 결정하는 구조는 반드시 보존돼야 한다.

이 연구는 AI 로봇이 실제 세계에서 안전하고 예측 가능하게 작동하려면 ‘가장 상세한 세계 모델’이 아니라 ‘해당 쿼리에 충분한 가장 단순한 모델’이 필요하다는 설계 원칙을 제시한다. 기존 시스템이 실패하는 사례를 이 접근법으로 올바르게 처리할 수 있음을 실험으로 입증했다. 자율주행·산업 로봇·의료 로봇 분야에서 안전성과 해석 가능성을 동시에 확보하기 위한 월드 모델 설계 방향에 중요한 시사점을 제공한다.


