사전 훈련된 비전 기반 모델(VFM)을 활용한 표현 오토인코더(RAE)의 이미지 재구성 품질을 향상시키는 심층 정렬 프레임워크 아이디얼(Ideal)이 arXiv에 공개됐다. 이미지 생성을 위한 의미적으로 풍부한 잠재 공간 구성에 대한 연구 흐름 속에서, 깊은 VFM 표현이 세밀한 시각적 디테일을 충분히 보존하지 못한다는 한계를 극복하려는 시도다.
기존 표현 오토인코더는 VFM의 깊은 레이어 특성만을 정렬 대상으로 사용했기 때문에 고수준 의미는 잘 담아내지만 저수준 외형과 구조 정보가 손실됐다. 이산화(discretization) 과정을 거치면 이 문제는 더욱 심각해지는데, 양자화된 토큰에서 빠진 저수준 정보는 복원이 어렵기 때문이다. 연구진은 얕은 레이어 특성이 로컬 외형과 구조적 디테일을 훨씬 풍부하게 보존한다는 점에 주목해, 이산화된 토큰을 얕은 특성과 깊은 특성 모두에 동시 정렬하는 아이디얼 프레임워크를 제안했다.
ImageNet 재구성 평가에서 아이디얼은 rFID(재구성 FID) 0.61을 달성해 이전 최고 방법을 0.28 앞섰다. 같은 이산 표현을 자기회귀 이미지 생성에 적용했을 때는 gFID(생성 FID) 1.89로 자기회귀 이미지 생성 분야의 새로운 최고 기록을 수립했다. rFID와 gFID 모두에서 동시에 최고 성능을 기록한 것은 이산 표현의 품질 향상이 재구성과 생성 두 과제 모두에 실질적 이득을 가져다줬음을 뜻한다.
아이디얼은 VFM의 다층적 특성 정보를 이산 토큰 학습에 통합함으로써 표현 오토인코더의 오랜 재구성 품질 한계를 근본적으로 개선했다는 평가를 받는다. 자기회귀 방식의 이미지 생성 성능을 끌어올리는 데 핵심 구성 요소로 활용될 가능성이 주목된다.














