2단계 확산 학습으로 2048 해상도 초고화질 생성 달성

실세계 이미지 초해상도(Super-Resolution, SR) 분야에서 확산 기반 생성 모델이 높은 성능을 보이고 있지만, 타일드 확산(Tiled Diffusion) 기법으로 모델의 기본 지원 해상도를 넘는 이미지를 생성할 경우 품질이 크게 떨어지는 문제가 있었다. 특히 8배 업샘플링처럼 모델이 기본적으로 지원하는 4배 배율을 초과하는 경우, 2048×2048 수준의 고해상도 출력 품질이 매우 낮았다. 대규모 아키텍처를 사용하는 고해상도 특화 모델은 GPU 메모리와 계산량이 과도해 제한된 자원 환경에서는 훈련 자체가 어렵다는 한계도 있었다.

이를 해결하기 위해 연구진은 TUDSR(Twice Upsampling-Diffusion for Higher Super-Resolution) 프레임워크를 제안했다. TUDSR은 두 단계로 구성된다. 첫 번째 단계는 R 해상도에서 학습하고, 두 번째 단계는 NR 해상도에서 루프 기반 청크(Chunk) 학습 전략을 도입해 고해상도를 달성한다. 각 단계는 생성자와 판별자로 구성된 일보 GAN(One-Step GAN) 아키텍처를 적용한다. SD2.1-base를 기반으로 개발된 TUDSR-S는 이 프레임워크를 구현한 모델이다.

Beautiful aerial view of rice terraces with vibrant green and flooded fields. — 사진: Duc Nguyen / Pexels

실험 결과 TUDSR-S는 1024×1024 및 2048×2048 해상도에서 고품질 이미지를 생성하며 다수 벤치마크에서 최고 수준 성능을 달성했고, 기존 접근법보다 유의미하게 뛰어난 결과를 보였다. 제한된 GPU 환경에서도 동작할 수 있도록 설계됐다는 점이 실용성 측면에서 주목할 만하다.

이 연구는 고해상도 특화 모델 훈련에 드는 막대한 계산 자원 없이도 2K급 초해상도를 달성할 수 있음을 보여준다. 2단계 학습과 청크 기반 전략의 결합은 확산 모델의 해상도 한계를 효율적으로 극복하는 실용적인 방향으로 평가된다.