MoTiF, 멀티모달 인터리빙 추론의 텍스트-이미지 전환 실패 해결 연구

텍스트 추론과 이미지 생성을 번갈아 수행하는 인터리빙 사고(interleaved thinking) 방식의 통합 멀티모달 모델에서 발생하는 근본적 실패 패턴을 규명하고 이를 해결하는 프레임워크 MoTiF(Modality Transition Fidelity, 모달리티 전환 충실도)가 arXiv:2606.12886 논문으로 공개됐다. 인터리빙 사고는 공간·물리 과제에서 성과를 보여왔으나, 복잡한 장기 추론 시나리오에서는 생성된 이미지가 텍스트 맥락에서 벗어나고, 이어지는 텍스트는 그 이미지를 무시하는 현상이 반복되는 문제가 있었다.

연구팀은 이 현상을 ‘모달 고립(Modal Isolation)’으로 명명하고, 원인이 모달리티 경계에서 누적되는 정보 손실에 있다고 분석했다. 각 추론 사이클을 원자적 연산으로 분해하고, 텍스트에서 이미지로 넘어갈 때의 교차 모달 환각(cross-modal hallucination)과 이미지에서 텍스트로 넘어갈 때의 시각 활용 부족(visual utilization deficit)을 각각 정량화하는 모달리티 전환 손실 개념을 도입했다. MoTiF는 이 전환 충실도를 직접 최적화하는 2단계 훈련 프레임워크다. 1단계 반성적 SFT(Reflective SFT)는 모델이 잘못된 시각 출력을 탐지하고 복구하도록 학습시킨다. 2단계 Flow-GRPO는 강화학습으로 이미지 생성 충실도를 높인다. 모든 훈련 신호는 최종 태스크 정확도가 아닌 전환 수준의 충실도에서 도출된다.

네 가지 시각 퍼즐 벤치마크에서 실험한 결과, 전환 수준의 감독 방식이 교차 모달 일관성과 최종 태스크 정확도 양면에서 실질적인 향상을 가져왔다고 연구팀은 밝혔다. 이 연구는 단순한 규모 확장이나 최종 태스크 최적화만으로는 인터리빙 추론의 품질을 담보할 수 없으며, 모달리티 경계에서의 명시적 구조 감독이 필요하다는 점을 보였다. 멀티모달 AI 시스템이 텍스트와 이미지를 유기적으로 연결하는 능력은 수학 문제 풀이, 과학 추론, 시각적 계획 수립 등 다양한 복잡한 태스크에서 핵심 역량으로 요구된다는 점에서 이 연구의 의의가 있다.

MoTiF는 기존의 단일 모달 학습 신호나 엔드투엔드 태스크 최적화 접근과 다른 방향을 제시한다는 점에서 멀티모달 정렬 연구의 새로운 방법론을 제안한 것으로 평가된다. 인터리빙 추론 능력의 신뢰성을 높이려는 연구 흐름과 맞물려 후속 연구에 기여할 것으로 전망된다.