연구팀이 텍스트-이미지(T2I) 모델의 공간적 사전 지식을 활용해 이미지와 깊이 정보를 동시에 생성하는 ‘모달리티 포싱(Modality Forcing)’ 기법을 제안했다. 이 방법은 단일 DiT(확산 트랜스포머) 모델을 희소(sparse) 깊이 데이터로 학습시켜, 밀도 높은 깊이 데이터나 복잡한 학습 절차 없이도 이미지와 깊이의 조건부·동시 생성을 가능하게 한다.
핵심 원리는 각 모달리티(이미지, 깊이)에 별도의 노이즈 레벨을 할당하는 방식이다. 이를 통해 모델은 어떤 조합으로도 이미지와 깊이를 생성할 수 있다. 모달리티별 독립 디코더를 적용함으로써 현실 세계의 희소한 깊이 데이터로 학습하면서도 일반화 성능이 높은 깊이 예측을 달성한다고 연구팀은 밝혔다. T2I 사전 학습의 확장성을 그대로 계승하는 구조여서, 더 많은 이미지 데이터로 더 큰 모델을 학습할수록 깊이 예측 정확도가 높아지는 특성을 보인다.

연구팀은 370M에서 3.3B 파라미터에 이르는 T2I 모델 여러 종을 처음부터 학습시켜 이 스케일링 효과를 검증했다. 최고 성능 모델은 최신 단안(monocular) 깊이 추정기와 경쟁하는 수준에 도달했으며, 기존 이미지-깊이 동시 생성 모델 대비 AbsRel(절대 상대 오차) 지표를 57% 낮췄다고 논문은 보고한다. 연구팀은 이 결과가 이미지 생성이 공간 인식의 확장 가능한 사전 학습 목표가 될 수 있음을 강하게 시사한다고 평가했다.
이미지 생성 모델이 원근감과 상대적 규모 등 기하학적 이해를 내재화한다는 점은 이미 알려졌지만, 이를 깊이 예측으로 연결하는 기존 접근법들은 밀도 높은 깊이 데이터 확보나 복잡한 다단계 처리 과정을 요구해 확장에 한계가 있었다. 모달리티 포싱은 희소 실세계 깊이 데이터만으로도 충분한 성능을 낼 수 있음을 보여줌으로써, 데이터 수집 부담을 낮추면서 공간 인식 능력을 강화하는 실용적 경로를 제시한다. 자세한 내용은 프로젝트 페이지(modality-forcing.github.io)에서 확인할 수 있다.














