VLM(비전-언어 모델, Vision-Language Model)이 시각적 맥락과 무관한 유창한 출력, 즉 환각(hallucination)을 생성하는 문제를 완화하기 위한 새로운 프레임워크 연구가 arXiv에 공개됐다. ‘CaVe-VLM-CoT’로 명명된 이 프레임워크는 모듈형 반성 기반 에이전트-RAG(Retrieval-Augmented Generation) 구조로 설계됐으며, 근거 없는 주장을 감지할 경우 검색 단계로 자동 피드백을 보내 재검색을 유도하는 닫힌 루프(closed-loop) 파이프라인을 구성한다.
연구진은 이 프레임워크를 추출기(Extractor), 검색기(Retriever), 해결기(Solver), 인용 주입기(Citation Injector), 검증기(Verifier)의 5단계로 구성했다. 검증기가 근거 없는 주장을 감지하면 구조화된 피드백이 추출기로 전달돼 목표 지향적 재검색이 이뤄지는 방식이다. 기존 연구들이 검색 품질, 단계별 인용 충실도, 교차 모달 근거 설정을 동시에 측정하는 기준을 갖추지 못했다는 점에 착안해, 연구진은 23개 구성 요소별 지표로 이루어진 평가 체계를 함께 제안했다. 정확도, 인용 정밀도·재현율, 귀속 등을 결합한 복합 지표 CaVeScore가 핵심 척도다.
아키텍처나 프롬프트 수정 없이 CaVe-VLM-CoT를 적용한 결과, 과학 질의응답 벤치마크인 ScienceQA에서 87.1% 정확도와 56.6% CaVeScore를, 대학원 수준 다분야 이해 벤치마크인 MMMU(30개 분야)에서는 55.2% 정확도와 35.7% CaVeScore를 각각 달성했다고 논문은 밝혔다. VLM의 환각 문제는 의료 영상 분석, 과학 문서 이해, 교육용 AI 등 높은 정확도가 요구되는 분야에서 실용적 활용을 막는 주요 장애물로 꼽혀왔다.
이번 연구는 추론 과정의 각 단계에 인용 근거를 강제함으로써 모델이 스스로 오류를 교정하도록 유도한다는 점에서 단순한 RAG 파이프라인 개선을 넘어선 접근으로 평가된다. 아키텍처 변경 없이 기존 VLM에 적용 가능한 모듈형 구조라는 점도 실용성을 높이는 요소로, 향후 다양한 멀티모달 모델과의 결합 연구가 기대된다.














