Visual-Seeker: 시각 정보를 능동 추론하는 멀티모달 에이전트 검색 모델 제안

멀티모달 대규모 언어 모델(MLLM)은 다양한 시각 과제에서 인상적인 성능을 보여왔지만, 복잡한 실세계 시나리오에서 사실 기반의 근거를 확보하는 데 어려움을 겪어왔다. 외부 도구를 활용한 멀티모달 딥서치 에이전트들이 이 문제를 해소하려 시도했지만, 기존 방법들은 명시적 의미가 있는 단순 이미지와 텍스트 중심의 증거 경로에 의존해 멀티홉·교차 모달 추론과 검색 능력에 한계를 보였다. arXiv에 게재된 논문에서 연구팀은 이러한 한계를 해결하기 위해 Visual-Seeker를 제안했다.

Visual-Seeker는 시각 정보를 단순 고정 입력으로 처리하지 않고 검색 과정 전체에 걸쳐 세밀한 시각적 세부 정보를 능동적으로 추적하며 시각 증거를 동적으로 수집하는 방식을 채택한다. 이 시각 네이티브(visual-native) 잠재력을 발휘하기 위해 연구팀은 능동 시각 추론 데이터 파이프라인을 설계하고 5,000개의 고품질 멀티모달 학습 궤적을 합성해 모델을 훈련했다. 다섯 가지 도전적인 멀티모달 검색 벤치마크에 걸친 실험에서 Visual-Seeker는 최신 성능을 달성했으며 일부 독점 모델을 초과하는 결과를 보였다고 연구팀은 밝혔다.

이 연구는 웹 환경에서의 실제 시각 네이티브 추론과 검색 능력을 검증했다는 점에서 의의가 있다. 이미지와 텍스트가 혼재된 실제 웹 검색·정보 수집 시나리오에서 시각 정보를 더 정밀하게 다루는 에이전트 모델의 가능성을 보여준 것으로, 멀티미디어 콘텐츠 분석과 비주얼 검색이 필요한 다양한 산업 응용 분야에 기술적 기반을 제공할 수 있다. 코드와 데이터는 논문에 공개된 URL을 통해 접근할 수 있다.