감시 카메라 영상에서 사고 발생 시점·유형·위치를 레이블(정답 데이터) 없이 자동으로 파악하는 제로샷(zero-shot) 파이프라인이 발표됐다. 연구팀은 사고 이해 과제를 ‘언제(when)’, ‘무엇(what)’, ‘어디(where)’의 세 단계로 분해해 순차적으로 추론하는 3단계 파이프라인을 제안했다. 이 접근법은 비전-언어 모델이 단일 프롬프트로 복잡한 사건을 직접 추론하는 것보다 세부 과제를 나눠 처리할 때 더 안정적인 성능을 낸다는 전제에서 출발했다.
파이프라인의 첫 단계는 비전-언어 유사도를 활용해 충격 사건 주변의 짧은 시간 구간을 추출한다. 두 번째 단계에서는 기준선·움직임·기하학·대비·타이브레이커 등 다섯 가지 상호 보완적 관점에서 다중 프롬프트 추론을 수행하고, 엔트로피 게이팅 방식의 쌍별 판정자가 이견을 조율한다. 마지막 단계에서는 예측된 사고 유형과 장면 배치를 기반으로 개방형 어휘 탐지기가 충격 위치를 특정하고, 핵심 프레임 전반에 걸쳐 점수 가중 무게중심 방식으로 결과를 집계한다.

실험 결과 이 파이프라인은 CVPR의 제로샷 ACCIDENT 벤치마크에서 기준이 되는 프레임 중앙 기반 방법 대비 조화 평균 점수를 크게 향상시켰다. 연구진은 제로샷 영상 이해 과제를 시간적 위치 파악, 의미 분류, 공간적 근거 제시로 분해하면 비전-언어 모델의 직접 프롬프팅보다 더 신뢰할 수 있는 추론이 가능함을 확인했다. 특히 메타데이터를 활용한 다중 프롬프트 구조가 단일 관점 추론의 불안정성을 보완하는 역할을 했다.
교통 감시 시스템과 안전 관리 분야에서 AI 기반 사고 자동 감지는 실시간 대응과 사후 분석 모두에서 중요성이 높다. 학습 데이터를 별도로 구축하지 않고도 작동하는 제로샷 방식은 새로운 사고 유형이나 촬영 환경에도 유연하게 적용할 수 있어 실용적 가치가 있다. 이 연구는 비전-언어 모델의 추론 구조를 과제 분해를 통해 체계화함으로써 복잡한 영상 이해 능력을 높이는 방향성을 보여준다.














