생성형 월드 모델 환각, 데이터 커버리지 문제로 규명…50개 궤적으로 미탐지 환경 적응

생성형 월드 모델(generative world model)의 환각(hallucination) 현상을 데이터 관점에서 체계적으로 분류하고 예방 방법을 제안한 연구가 발표됐다. 연구팀은 롤아웃이 시각적으로 자연스러운 영상을 유지하면서도 실제 물리 법칙에서 벗어나는 현상, 즉 월드 모델 고유의 환각이 상태-행동 공간(state-action space)에서 학습 데이터가 희박한 영역에 집중된다는 가설을 세우고 이를 검증했다.

연구팀은 이 가설을 실험하기 위해 지상 액션·보상·라이브 시뮬레이터를 포함한 427시간 분량, 210개 태스크 규모의 시각적 월드 모델링 데이터셋 MMBench2를 새롭게 구축하고, 3억 5,000만 파라미터 월드 모델을 훈련시켰다. 환각 유형은 지각적 환각(perceptual hallucination), 행동-주변화 환각(action-marginalized hallucination), 장면 이탈 환각(scene-diverging hallucination)의 세 가지로 분류됐으며, 각 유형은 모델 파이프라인의 서로 다른 단계와 대응된다. 이를 탐지하기 위한 세 가지 예측 신호도 함께 개발됐으며, 커버리지 인식 샘플링(coverage-aware sampling) 기법을 통해 훈련 단계에서 환각을 완화하는 방법도 제안됐다.

연구에서 주목할 만한 실험 결과 중 하나는 환각 예측기를 호기심 보상(curiosity reward)으로 활용해 온라인 데이터를 목표 수집했을 때, 단 50개의 실 환경 궤적(trajectory)만으로도 모델이 완전히 처음 보는 환경에 적응했다는 점이다. 이는 월드 모델의 환각이 본질적으로 데이터 커버리지 문제임을 시사하며, 충분한 탐색 신호와 소량의 추가 데이터를 결합하면 새로운 환경에서의 신뢰성을 빠르게 높일 수 있음을 보여준다. 강화학습 환경에서의 월드 모델 신뢰성 개선 연구에 실질적인 기준점을 제공하는 연구로 평가된다.