긴 영상 이해 AI, 쿼리 기반 선택적 처리로 최대 9.1%p 성능 향상

수천 개의 프레임을 포함하는 긴 영상을 전부 처리하는 것은 멀티모달 대규모 언어모델(MLLM)에 높은 계산 비용을 요구한다. 기존 방법들은 제한된 시각적 예산 내에서 긴 영상을 압축해 입력을 구성하지만, 대부분 프레임 중심 패러다임을 따르면서 중요도와 관계없이 유지된 콘텐츠에 유사한 표현을 적용한다. 이 때문에 고해상도 시각 증거와 넓은 시간적 커버리지를 동시에 보존하기가 어렵다. 연구팀은 이 문제를 해결하기 위해 훈련이 필요 없는 입력 구성 프레임워크 Q-Fold를 제안했다.

Q-Fold는 개별 프레임을 기본 모델링 단위로 삼는 기존 방식 대신 연속된 시간 구간 단위로 동작하며, 쿼리 안내 아래 이질적인 포커스-문맥 표현을 구성한다. 쿼리와 관련성이 높은 구간은 고해상도 포커스 프레임으로 보존되고, 관련성이 낮은 구간은 시간 순서를 유지하는 맥락적 레이아웃으로 압축된다. 이를 통해 핵심 시각 증거와 넓은 시간적 커버리지를 유지하면서 짧은 구간 내 지역적 시간 연속성도 더 잘 보존한다.

네 가지 긴 영상 벤치마크에서 다양한 영상 멀티모달 LLM에 Q-Fold를 적용한 실험 결과, 입력 예산을 늘리지 않고도 일관된 성능 향상이 확인됐다. 특히 초장시간 영상 벤치마크에서 최대 9.1%포인트의 향상을 달성했다. 코드는 공개 예정이라고 연구팀은 밝혔다.

긴 영상 이해는 멀티모달 AI가 풀어야 할 난제로 꼽힌다. 수천 프레임을 모두 모델에 넣으면 계산량이 폭증하지만, 무작정 압축하면 정작 질문에 필요한 장면의 화질이 뭉개진다. Q-Fold는 사용자의 질문을 기준으로 중요한 구간은 선명하게, 덜 중요한 구간은 시간 순서만 보존한 채 접어두는 식으로 이 상충 관계를 다룬다. 별도 학습 없이 입력 구성 단계에만 끼워 넣을 수 있어 기존 영상 모델에 곧바로 얹을 수 있다는 점도 실용적 강점으로 꼽힌다. 영상 검색·요약·감시 분석처럼 긴 영상을 다루는 응용 전반에 적용 여지가 있다.