연구팀이 멀티턴 이미지 편집의 성능을 끌어올리기 위한 강화학습 프레임워크 MT-EditFlow를 제안했다. 명령어 기반 이미지 편집 모델은 단일 편집 요청은 잘 처리하지만, 사용자가 이전 결과물 위에 반복적으로 수정을 가하는 멀티턴 환경에서는 성능이 급격히 떨어지는 문제가 있었다. 한 번의 편집 실패가 전체 시퀀스를 망가뜨리는 ‘올-오어-낫싱’ 구조와, 이전 출력의 오류가 다음 단계로 번지는 노출 편향(exposure bias)이 주된 원인이다.
MT-EditFlow는 플로우 매칭(flow matching) 기반의 강화학습 프레임워크로, 멀티턴 관점과 다중 보상(multi-reward) 설계를 결합해 GRPO 및 NFT 기반 강화학습 방식 모두에 적용 가능한 통합 구조를 제공한다. 연구팀은 턴 수준 집계 점수 전략, 보상 편향과 분산을 조율하는 VLM(비전-언어 모델) 추론 방식, 보상 해킹을 방지하는 어드밴티지 융합 수준 등을 체계적으로 분석해 보상 신호를 최적화했다. 핵심 발견은 집계된 어드밴티지를 전체 편집 궤적에 걸쳐 브로드캐스팅하면 국소적 계획과 전체 멀티턴 과제 성공 사이의 간극을 효과적으로 좁힐 수 있다는 점이다.
실험 결과 MT-EditFlow는 다양한 기반 모델에서 성능 향상을 가져왔다. 특히 FLUX.1-Kontext-dev 모델의 3턴 종합 성능을 6.85포인트 높여 Qwen-Image-Edit 등 공개된 최고 수준의 오픈소스 모델을 뛰어넘었다. 높은 단계별 성공률을 유지하면서 노출 편향을 줄인다는 특성은, 시각 콘텐츠 창작 분야에서 사람과 AI가 자연스럽게 협업하는 방식을 실현하는 기반이 될 수 있다는 게 연구팀의 설명이다.













