TetherCache, 장시간 자동회귀 영상 생성의 시간적 드리프트 문제 해결

자동회귀(autoregressive) 방식의 영상 확산 모델은 이미 생성된 프레임을 조건으로 새 프레임을 만들어 가변 길이 영상을 자연스럽게 생성할 수 있다는 장점이 있다. 그러나 수십 초에서 수 분에 이르는 장시간 영상을 생성할 때는 두 가지 한계가 누적된다. 첫째, KV-캐시 용량이 제한돼 전체 이력을 유지하기 어렵고, 둘째, 자체 생성 프레임을 반복적으로 조건으로 사용하다 보면 컨텍스트 분포가 점진적으로 원래와 멀어져 시각적 아티팩트와 화질 저하, 시간적 드리프트(temporal drift)가 쌓인다.

이 문제를 해결하기 위해 제안된 TetherCache는 학습이 필요 없는 플러그앤플레이 방식의 캐시 관리 전략이다. 캐시를 싱크(sink)·메모리(memory)·최신(recent) 세 구역으로 나누고, 두 가지 보완 메커니즘을 도입했다. 첫 번째인 GRAB(Gated Recall with Attention-Diversity Balancing)은 어텐션 기반 관련성과 시간적 다양성을 결합한 게이티드 점수로 장거리 메모리 프레임을 선택해, 고정된 캐시 예산 안에서 정보성과 다양성을 동시에 확보한다. 두 번째인 TAME(Trusted Alignment via Memory Editing)은 새로 불러온 메모리 토큰의 통계값을 신뢰할 수 있는 기준 컨텍스트 분포에 맞게 가볍게 조정해, 오래된 프레임의 분포 이탈이 현재 생성에 미치는 오염을 줄인다.

TetherCache는 Self-Forcing 기반 자동회귀 영상 생성 모델 위에서 동작하며, VBench-Long 벤치마크로 30초·60초·240초 영상 생성 품질을 평가했다. 특히 240초 생성 환경에서 전반적 품질 점수와 의미 일관성 점수가 개선됐고, 드리프트 수치는 7.84에서 1.33으로 낮아져 장시간 생성의 안정성이 크게 향상된 것으로 나타났다.

이 연구는 추가 학습 없이 캐시 구조와 메모리 편집만으로 자동회귀 영상 확산의 핵심 한계를 완화했다는 점에서 실용적 가치가 높다. 스트리밍 영상 생성이나 가변 길이 콘텐츠 제작 파이프라인에 플러그인 형태로 적용할 수 있어, 장기 영상 생성 품질 요구사항이 높은 분야에서 활용될 전망이다.