텍스트와 이미지가 순서 없이 뒤섞인 교차 생성(interleaved generation)은 시각적 서사나 구체화 조작 같은 실용 영역에서 수요가 높지만, 단일 이미지 생성에 특화된 기존 아키텍처는 이 기능을 지원하지 못했다. 연구진은 이 문제를 해결하기 위해 InterleaveThinker를 제안했다. 어떤 이미지 생성기에도 교차 생성 능력을 부여할 수 있는 최초의 다중 에이전트 파이프라인이다.
파이프라인은 두 에이전트로 구성된다. 플래너(planner) 에이전트가 텍스트-이미지 입력 순서를 정리하고 각 단계에서 이미지 생성기에 내릴 명령을 결정한다. 비평(critic) 에이전트는 생성기 출력물을 평가해 계획된 지시와 어긋난 샘플을 찾아내고, 재생성을 위한 지시를 수정한다. 학습 데이터로는 콜드 스타트용 Interleave-Planner-SFT-80k, Interleave-Critic-SFT-112k와 단계별 지시 교정 능력 강화를 위한 Interleave-Critic-RL-13k가 사용됐으며, 강화학습 알고리즘으로는 GRPO가 적용됐다.
단일 교차 생성 궤적에 25회 이상의 생성기 호출이 포함될 수 있어 전체 궤적을 한꺼번에 최적화하는 방식은 계산 비용 문제로 비현실적이다. 연구진은 이를 해결하기 위해 정확도 보상(accuracy reward)과 단계별 보상(step-wise reward)을 도입해 단일 단계 강화학습으로 전체 생성 궤적을 효과적으로 유도하는 방법을 개발했다. 연구진에 따르면 InterleaveThinker는 다양한 이미지 생성기에서 교차 생성 벤치마크 성능을 끌어올렸으며, 추론 기반 벤치마크에서도 기반 모델 성능을 향상시키는 효과를 보였다.
최신 오픈소스 통합 멀티모달 모델(UMM)들도 교차 생성 능력이 제한적이라는 점에서, InterleaveThinker는 기존 생성기에 새 기능을 외부에서 더하는 모듈형 접근법이라는 점에 의의가 있다. 특정 생성기 구조에 종속되지 않아 다양한 백엔드에 적용 가능하며, 시각 서사·로봇 조작 등 텍스트-이미지 혼합 출력이 요구되는 응용 분야로의 확장 가능성이 주목된다.














