No Result

View All Result

No Result

View All Result

No Result

View All Result

텍스트·이미지·오디오 아우르는 전방위 임베딩 모델 Conan-embedding-v3

작성: 유지율 리포터

2026년 06월 10일 14시 15분

Reading Time: 1 min read

Home AI 모델·연구

텍스트, 이미지, 영상, 문서, 오디오를 단일 임베딩 공간에서 처리하는 전방위 검색(omni-modal retrieval) 모델 Conan-embedding-v3가 공개됐다. 다양한 모달리티를 단일 모델로 통합하는 것은 데이터 분포, 아키텍처, 최적화 역학이 모달리티마다 다르기 때문에 구현이 까다로운 문제인데, 연구진은 이를 해결하기 위해 분리-융합-복원(decouple-fuse-recover) 구조를 제안했다.

이 접근법에서는 먼저 각 모달리티 전담 모델을 독립적으로 훈련한 뒤, 이들의 태스크 벡터를 단일 백본에 융합하는 분리 전문가 융합(Decoupled Specialist Fusion) 전략을 적용한다. 시각, 영상, 문서 검색 능력은 융합으로 성공적으로 합쳐졌지만, 외부 인코더와 프로젝터를 통해 연결되는 오디오 모달리티에서 문제가 발생했다. 백본을 융합한 후 프로젝터가 오디오 전문가 백본에 맞게 보정된 상태로 남아 오디오 검색 성능이 크게 떨어지는 현상이 나타났는데, 연구진은 이를 프로젝터 드리프트(Projector Drift)로 명명했다. 이를 보정하기 위해 백본을 고정한 채 프로젝터를 전체 파라미터로 미세 조정하는 프로젝터 복원(Projector Recovery)과 균형 잡힌 다중 모달 재현(rehearsal) 과정을 적용했다.

macro photography of lights — 사진: Daniel Falcão / Unsplash

최종 모델은 MMEB 벤치마크에서 74.9점, 30개 과제로 구성된 MAEB 오디오 스위트에서 55.61점을 기록했다. 단일 백본이 다양한 검색 경로를 지원하면서도 오디오 같은 외부 연결 모달리티까지 안정적으로 처리한다는 점을 실증했다.

전방위 임베딩 모델은 멀티미디어 검색, 추천 시스템, 지식 검색 등 다양한 분야에서 실용적 수요가 크다. Conan-embedding-v3가 확인한 프로젝터 드리프트 문제와 그 해결 방법은 향후 멀티모달 통합 모델 설계에서 중요한 참고 사례가 될 전망이다.

저작권자 © STORIUM 무단전재 및 재배포 금지

Tags: 검색 멀티모달 오디오 오믹스모달 임베딩

유지율 리포터

안녕하세요, 유지율 리포터입니다. arXiv와 학회에서 쏟아지는 AI 연구를 살펴, 논문 속 성과를 과장 없이 우리말로 풀어 드립니다. 사실관계는 발행 전 편집인이 함께 확인합니다.

관련 기사

AI 모델·연구

대조 MRI를 시각 프롬프트로 써 NCCT 간 병변을 분할한 SAM 기반 방법, 73례 프로톤치료 데이터에서 검증

2026년 07월 24일 02시 15분

AI 모델·연구

음악의 감정 흐름을 4마디 단위로 읽어 360도 영상으로 바꾸는 생성 파이프라인

2026년 07월 20일 23시 09분

Purdue University 공식 가로형 로고

AI 모델·연구

OpenAI o4-mini, 입문 물리 문제 1203개에서 90% 정확도…그림 해석 과제는 79%로 낮아져

2026년 07월 20일 22시 13분

Persistent Autonomy and Robot Learning (PeARL) Lab, University of Massachusetts Lowell 공식 캠퍼스 사진 — 한 번의 시연으로 힘까지 학습하는 로봇 조작 프레임워크 연구진 소속기관

AI 모델·연구

로봇 힘 학습, 단 한 번의 시연에서 궤적과 접촉력을 함께 재현

2026년 07월 14일 12시 42분

Next Post

Two colleagues discussing documents at a modern office with computers.

KISDI, 생성형 AI가 분업 비효율 해소…생산성 10% 향상 실증

답글 남기기 응답 취소

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

최근 뉴스

엔비디아·37개 창립 파트너, Open Secure AI Alliance 출범

2026년 07월 28일 19시 45분

미국 연방 로비가 이뤄지는 워싱턴 의사당 공식 사진

미 주요 기술·AI 기업·단체 11곳, 상반기 로비 4,180만달러

2026년 07월 28일 18시 46분

주소: 경기 고양시 덕양구 꽃마을로 66, 한일미디어타워 15층
상호: 스토리움 | 사업자등록번호: 579-27-02025 | 대표자: 이국환
발행·편집인: 이국환 | 청소년보호책임자: 이국환 | 발행일자: 2025.01.01
스토리움의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
© 2026 STORIUM. All Rights Reserved.

No Result

View All Result

주소: 경기 고양시 덕양구 꽃마을로 66, 한일미디어타워 15층
상호: 스토리움 | 사업자등록번호: 579-27-02025 | 대표자: 이국환
발행·편집인: 이국환 | 청소년보호책임자: 이국환 | 발행일자: 2025.01.01
스토리움의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
© 2026 STORIUM. All Rights Reserved.