텍스트, 이미지, 영상, 문서, 오디오를 단일 임베딩 공간에서 처리하는 전방위 검색(omni-modal retrieval) 모델 Conan-embedding-v3가 공개됐다. 다양한 모달리티를 단일 모델로 통합하는 것은 데이터 분포, 아키텍처, 최적화 역학이 모달리티마다 다르기 때문에 구현이 까다로운 문제인데, 연구진은 이를 해결하기 위해 분리-융합-복원(decouple-fuse-recover) 구조를 제안했다.
이 접근법에서는 먼저 각 모달리티 전담 모델을 독립적으로 훈련한 뒤, 이들의 태스크 벡터를 단일 백본에 융합하는 분리 전문가 융합(Decoupled Specialist Fusion) 전략을 적용한다. 시각, 영상, 문서 검색 능력은 융합으로 성공적으로 합쳐졌지만, 외부 인코더와 프로젝터를 통해 연결되는 오디오 모달리티에서 문제가 발생했다. 백본을 융합한 후 프로젝터가 오디오 전문가 백본에 맞게 보정된 상태로 남아 오디오 검색 성능이 크게 떨어지는 현상이 나타났는데, 연구진은 이를 프로젝터 드리프트(Projector Drift)로 명명했다. 이를 보정하기 위해 백본을 고정한 채 프로젝터를 전체 파라미터로 미세 조정하는 프로젝터 복원(Projector Recovery)과 균형 잡힌 다중 모달 재현(rehearsal) 과정을 적용했다.

최종 모델은 MMEB 벤치마크에서 74.9점, 30개 과제로 구성된 MAEB 오디오 스위트에서 55.61점을 기록했다. 단일 백본이 다양한 검색 경로를 지원하면서도 오디오 같은 외부 연결 모달리티까지 안정적으로 처리한다는 점을 실증했다.
전방위 임베딩 모델은 멀티미디어 검색, 추천 시스템, 지식 검색 등 다양한 분야에서 실용적 수요가 크다. Conan-embedding-v3가 확인한 프로젝터 드리프트 문제와 그 해결 방법은 향후 멀티모달 통합 모델 설계에서 중요한 참고 사례가 될 전망이다.














