PRISMR: 멀티모달 리스트와이즈 랭킹의 파스 붕괴 문제 해결 프레임워크

생성형 대규모 멀티모달 모델(LMM)을 활용한 리스트와이즈 랭킹에서 자동회귀 디코더가 후보를 누락한 채 조기에 종료하는 ‘파스 붕괴(parse collapse)’ 문제를 해결하는 프레임워크 PRISMR이 발표됐다. 리스트와이즈 랭킹은 전체 후보 목록의 전역 컨텍스트를 단일 순전파로 포착할 수 있어 효율적이지만, 긴 멀티모달 컨텍스트 환경에서는 모델이 일부 후보를 조용히 누락하며 불완전한 순위를 생성하는 실패 모드가 나타난다.

연구진은 이 문제가 단순한 서식 오류가 아닌 제한된 컨텍스트 활용에서 비롯된다는 점을 규명하고, 프롬프트 엔지니어링이나 제약 디코딩으로는 근본 해결이 어렵다고 분석했다. PRISMR(Parameterized Representation Internalization for Semantic Multimodal Ranking)은 일시적 인컨텍스트 처리 대신 파라메트릭 구조 조건화 방식을 채택한다. 경량 하이퍼네트워크가 멀티모달 후보를 병렬로 인코딩하고 항목별 LoRA(저랭크 적응) 가중치를 생성하며, 이를 합성해 인스턴스별 어댑터를 LMM에 적용하는 구조다. 이 방식은 리스트 구조를 모델 파라미터 수준에서 내면화함으로써 기본 모델을 보존하면서도 후보 누락 없이 견고하게 순위를 생성한다.

연구진은 평가를 위해 대규모 멀티모달 리뷰-랭킹 벤치마크도 새로 구축했다. 실험 결과 PRISMR은 파스 붕괴 발생률을 크게 낮추고 리스트와이즈 랭킹 성능을 향상시켰으며, 다양한 도메인과 인스트럭션 튜닝 기반 모델에서도 효과적인 전이 성능을 보였다.

멀티모달 검색·추천 시스템에서 후보 집합이 길어질수록 생성형 랭킹 모델의 신뢰성이 떨어지는 현상은 실용적 배포에서 중요한 과제였다. PRISMR은 기존 하이퍼네트워크와 LoRA 기술을 결합해 이 문제를 파라미터 수준에서 접근함으로써, 멀티모달 랭킹 시스템의 견고성 향상에 기여할 수 있는 방향을 제시했다.