BCP, CLIP 기반 멀티레이블 인식의 분포 변화 취약성을 베이지안 방법으로 해결

고정된 비전-언어 모델(VLM)을 사용한 멀티레이블 인식은 분포 변화(distribution shift) 상황에서 쉽게 무너진다. 표준 제로샷 추론은 레이블을 독립적으로 점수화하기 때문에 레이블 간 공동 출현 구조를 무시하고, 그 결과 지배적인 개념이 약하지만 공존 가능한 레이블을 억제하는 비일관적인 레이블 집합을 생성하는 문제가 발생한다. 이를 해결하기 위해 백본을 재학습하지 않고 테스트 시점에 레이블 의존성을 주입하는 그레이디언트가 필요 없는 베이지안 조건부 사전분포 추정 방식(BCP)이 제안됐다.

BCP는 제로샷 로짓을 고정된 이미지-텍스트 우도 하에서 주변 사후 분포의 대리로 보고, 분포 변화로 인한 오류를 주로 불일치한 레이블 사전 분포에서 비롯된 것으로 본다. 각 테스트 이미지에 대해 고신뢰도 앵커 레이블을 선택하고 앵커 조건부 베이지안 세밀화를 적용한다. 이 업데이트는 로짓 공간에서 닫힌 형식으로 계산되며, 점별 상호 정보(PMI) 해석을 허용해 호환 레이블을 명시적으로 촉진하고 비호환 레이블을 억제한다. 앵커 조건부 사전 추정은 레이블이 없는 테스트 스트림에서 온라인으로 경량 이차 공동 출현 통계를 통해 이루어지며, 단일 포워드 패스 이상의 오버헤드는 거의 없다.

표준 멀티레이블 벤치마크와 다수의 CLIP 백본을 대상으로 한 실험에서 BCP는 강력한 테스트타임 적응(TTA) 기준선들을 일관되게 뛰어넘었으며, 여러 백본에서 평균 정밀도(mAP) 기준 두 자릿수 폭의 성능 향상을 보였다고 저자들은 밝혔다. 훈련 없이 테스트 데이터 흐름만으로 레이블 공동 출현 정보를 실시간 반영할 수 있다는 점에서, 데이터 분포가 자주 변동하는 실제 배포 환경에 실용적인 적용 가능성을 보여준 연구로 평가된다.