대규모 온라인 영상 중복 91% 감소, 다중 수준 표현 기반 시스템

사용자 생성 영상 콘텐츠가 폭발적으로 증가하면서 부분 편집으로 약간 변형된 유사 중복 영상이 대거 등장하고 있다. 이런 중복 영상은 사용자 경험을 저하시키고 저장·대역폭 비용을 높여 플랫폼 운영의 핵심 문제로 떠오르고 있다. 연구팀은 제한된 인덱스 예산 안에서 충분한 고품질 후보를 검색하고 효율성과 정밀도의 균형을 잡는 데 어려움을 겪는 기존 방식의 한계를 해결하기 위해 MLT-Dedup 프레임워크를 제안했다.

MLT-Dedup은 다중 수준 영상 인코더(ML-VE)를 사용해 세밀한 프레임 수준 임베딩과 희소 클립 수준 임베딩을 함께 추출한다. 희소 임베딩은 효율적인 후보 검색에 활용되고, 세밀한 임베딩은 정밀한 쌍별 매칭에 사용된다. 매칭 단계에서는 중복된 시간 구간을 찾아내고 정책 기반 중복 제거 결정을 지원하는 신뢰할 만한 유사도 증거를 제공하는 차별적 특징 강화 유사도 모듈 DiF-SiM을 도입했다.

실제 대규모 플랫폼 실험에서 MLT-Dedup은 90% 정밀도 조건에서 온라인 중복 비율을 91% 낮추는 성과를 냈다. 또한 희소 검색 설계로 인덱싱 용량이 5배 늘어나 실제 배포 환경에서 더 넓은 후보 커버리지를 확보할 수 있다. 연구팀은 이 프레임워크가 효율성과 정밀도를 동시에 충족하며 대규모 온라인 영상 중복 제거의 실용적인 해법이 될 수 있다고 밝혔다.

유사 중복 영상 처리는 동영상 공유 플랫폼과 짧은 영상 서비스가 공통적으로 마주하는 난제다. 동일한 콘텐츠가 자막이나 부분 편집만 거쳐 반복 노출되면 추천 품질이 떨어지고 저장·전송 비용이 불어나기 때문이다. 검색 단계는 가볍게, 매칭 단계는 정밀하게 처리하는 이원 구조는 한정된 인덱스 자원으로 대규모 트래픽을 다뤄야 하는 운영 현실에 맞춘 설계로 볼 수 있다. 다만 이번 성과가 특정 플랫폼 환경에서 측정된 만큼, 콘텐츠 유형과 변형 방식이 다른 서비스에서도 같은 수준의 효율과 정밀도가 재현될지는 추가 검증이 필요하다.