SwiftVR, 소비자용 GPU로 1080p 실시간 AI 영상 복원 달성

실시간 비디오 복원(VR, Video Restoration)을 라이브 스트리밍에 적용하려면 고해상도 출력과 프레임당 엄격한 지연 제약을 동시에 충족해야 한다. 기존 1단계 확산(one-step diffusion) 기반 복원 모델들은 고해상도에서 이차적으로 증가하는 공간 어텐션 연산량과 대형 비디오 오토인코더의 지연·메모리 부담이라는 두 가지 병목 탓에 소비자용 GPU 배포가 어려웠다. 연구진이 제안한 SwiftVR은 인과적 청크 단위 스트리밍 방식으로 이 두 병목을 동시에 줄이는 프레임워크다.

어텐션 효율화를 위해 마스크 없는 이동 윈도우 자기 어텐션(mask-free shifted-window self-attention)을 도입했다. 각 공간 윈도우를 결정적 인덱싱으로 밀집 텐서에 통합해 모든 어텐션 연산을 표준 밀집 스케일드 닷 프로덕트 어텐션(SDPA) 경로로 처리함으로써 마스크·순환 이동·패딩·하드웨어 전용 희소 커널 없이 구동된다. 이 구조 덕분에 재학습 없이 소비자 GPU로 이식 가능하다. 오토인코딩 측면에서는 복원 인식 경량 오토인코더로 청크 단위 빠른 디코딩과 복원 품질을 동시에 확보했다.

H100 단일 GPU에서 SwiftVR은 2560×1440 해상도 31FPS, 3840×2160(4K) 해상도 14FPS를 유지했다. 비교 대상인 확산 기반 복원 기준 모델들은 모두 4K에서 메모리 한계를 초과했다. 소비자용 RTX5090에서는 1920×1080 해상도 26FPS를 달성했다. 연구진은 SwiftVR이 소비자용 GPU에서 1080p 스트리밍 실시간 생성 복원을 달성한 최초의 모델이라고 밝혔다. 프로젝트 페이지를 통해 공개된 이 연구는 방송·콘텐츠 제작·화상 통화 품질 향상 등 다양한 실시간 영상 처리 분야에 적용 가능성이 있다.