DuET, 확산 모델 이미지 편집에서 소스 조건화 완화로 품질 향상

연구팀이 확산 모델 기반 이미지 편집의 품질을 높이는 학습 불필요 추론 기법 DuET(Dual Expert Trajectories)를 제안했다. 기존 확산 편집기들은 모든 디노이징 단계에서 소스 이미지를 조건으로 사용하는데, 이 지속적인 소스 조건화가 편집의 완전한 실행을 제한하고 목표 장면이 입력과 크게 다를 때 자연스럽지 않은 결과를 낳는다는 점을 문제로 지적했다.

DuET는 디노이징 궤적의 일부 구간에서 소스 이미지 조건화를 잠시 해제하고 텍스트-이미지 생성 단계를 거친 뒤 다시 편집 모드로 복귀하는 방식으로 동작한다. 이를 통해 디노이징 궤적이 목표 분포 쪽으로 이동할 여지를 확보하면서도, 이미지 조건화 편집의 구조 보존 이점은 유지한다. 모델 가중치를 변경하지 않고 샘플링 비용도 증가시키지 않는다는 점이 실용적 강점이다.

Drone shot capturing lush green agricultural fields in West Java, Indonesia. — 사진: Tom Fisk / Pexels

연구팀은 다양한 모델과 벤치마크에서 DuET를 평가한 결과, 지시 관련성, 의미 충실도, 지각 품질 세 가지 지표에서 일관된 향상을 확인했다고 밝혔다. 다만 일부 경우에는 소스 이미지 보존 정도가 소폭 감소하는 것도 관찰됐다. 이는 소스 보존과 편집 충실도 사이의 예측 가능한 상충 관계를 드러내는 것으로, 연구팀은 이 트레이드오프가 DuET 적용 범위를 결정하는 설계 파라미터가 될 수 있다고 설명했다.

텍스트 지시어 기반 이미지 편집은 생성 AI의 핵심 응용 중 하나로, 사용자가 원하는 방향으로 사진을 수정하거나 장면을 교체하는 데 널리 활용된다. DuET처럼 추가 학습 없이 기존 모델의 추론 과정만 조정해 성능을 끌어올리는 방향은, 다양한 편집 모델에 범용적으로 적용할 수 있다는 점에서 실무적 가치가 크다고 평가된다.