이미지의 미적 품질을 자동으로 평가하는 IAA(Image Aesthetic Assessment) 분야에서 기존의 주류 방법론이 가진 구조적 한계를 지적하고 새로운 학습 패러다임을 제안한 연구가 arXiv에 등재됐다. 기존 IAA 모델들은 대규모 사용자 평점의 평균인 MOS(Mean Opinion Scores)를 절대 수치로 회귀 예측하는 방식에 의존해왔다. 이 논문은 그 방식이 인간의 미적 인식이 암묵적인 비교 대상에 상대적으로 형성된다는 본질을 간과하며, 인과적 추론 능력을 모델에 심는 데 한계가 있다고 지적한다.
연구팀은 이를 극복하기 위해 RED-Aes(Relative Edit-induced Difference Aesthetic learning) 프레임워크를 제안한다. 핵심 아이디어는 제어 가능한 이미지 편집 모델을 활용해 인간의 미적 판단 과정을 시뮬레이션하는 것이다. 절대 점수 분포를 맞추는 대신, 편집 전후 이미지 쌍에서 어떤 시각적 요소가 심미성 변화를 유발하는지를 명시적으로 학습한다. 학습 전략은 3단계로 구성되며, 상대적 순위 일관성 보상을 기준으로 삼아 상대적 감독 신호만으로 모델을 최적화한다.

이 연구는 새로운 데이터셋인 RED-20k도 함께 구축해 공개한다. 이 데이터셋은 편집 기반 이미지 쌍, 정량적 심미성 차이 수치, 그리고 CoT(Chain-of-Thought) 방식의 추론 과정을 포함한다. 다양한 공개 벤치마크에서의 실험 결과, RED-Aes는 최고 수준의 성능을 기록하면서 다양한 시나리오에 걸쳐 우수한 일반화 능력을 보였다고 연구팀은 밝혔다. 절대 점수 중심 평가에서 상대적 차이 학습으로의 전환은 이미지 생성·편집 AI의 품질 자동 검증 체계에도 영향을 미칠 수 있다는 점에서 주목된다.














