서로 다른 임베딩 모델이 생성한 벡터들을 의미적 관계를 보존하면서 연결하는 ‘교차 모델 지역 등거리 일관성(Cross-Model Local Isometric Consistency)’ 방법이 arXiv에 공개됐다. 임베딩 모델은 텍스트, 이미지, 오디오 등 다양한 데이터를 고차원 벡터 공간으로 변환하는 AI 시스템으로, 검색, 추천, 분류 등 광범위한 응용의 기반이 된다. 그러나 서로 다른 모델이 생성한 벡터 공간은 일반적으로 직접 비교하거나 결합하기가 어렵다. 이 연구는 모델 간 벡터 공간의 구조적 유사성을 활용해 이 문제를 해결하는 방법을 제안한다.
연구팀이 다루는 문제는 서로 다른 블랙박스 인코더가 부분적으로 겹치는 데이터에 대해 생성한 두 임베딩 군집에서, 벡터 정보만으로 모델 간 객체 대응 관계를 복원하는 ‘벡터 링킹’이다. 핵심 관찰은 독립적으로 학습된 대조 인코더들이 지역 기하 일관성을 보인다는 점으로, 단거리 거리는 스케일 인자 범위 내에서 근사적으로 보존되지만 장거리 거리는 모델 고유의 왜곡으로 보존되지 않는다. 연구팀은 이 성질을 바탕으로 소수의 짝지어진 앵커 시드 집합에서 출발하는 반복적·참조 기반 기하 임베딩 해싱 기법을 제안했다. 각 벡터를 표본 앵커까지의 거리로 표현하고 해시 공간 매칭으로 후보 링크를 제안한 뒤, 베타-베르누이 사후분포로 증거를 통합해 고신뢰 링크를 새 앵커로 부트스트랩한다. 여러 벤치마크와 임베딩 모델 쌍 실험에서 겹침 정도·시드 예산·도메인 외 앵커가 달라져도 정확하고 견고한 링킹이 가능함을 보였다.

이 연구는 다양한 AI 임베딩 모델이 공존하는 현실에서 중요한 실용적 가치를 갖는다. 기업들은 목적에 따라 다양한 임베딩 모델을 사용하며, 시간이 지남에 따라 더 나은 모델로 교체하거나 여러 모델의 강점을 결합하고자 한다. 이 과정에서 기존 임베딩 데이터베이스를 재계산하지 않고 모델 간 호환성을 확보하는 것은 비용과 연속성 측면에서 매우 중요하다. 벡터 링킹 기술은 다중 모달 검색, 크로스 플랫폼 유사도 검색, AI 시스템 업그레이드 등에서 실질적인 편익을 제공할 수 있다. 다만 모델들 사이의 차이가 매우 클 경우 지역 등거리 가정이 성립하지 않을 수 있다는 한계도 존재한다.
국내 AI 서비스 기업과 검색 플랫폼 개발팀에게 벡터 링킹 기술은 즉시 적용 가능한 가치를 갖는다. 기존에 구축한 대규모 임베딩 데이터베이스를 새 모델로 전환하거나, 여러 임베딩 모델을 혼용해야 하는 하이브리드 검색 시스템을 구축하는 경우에 이 방법을 적용하면 전환 비용을 크게 줄일 수 있다. 특히 오픈소스 임베딩 모델을 사용하다가 더 성능이 좋은 모델로 마이그레이션하거나, 다국어 임베딩 모델 간 통합 검색을 구현하는 데 이 연구의 기법이 유용할 것으로 기대된다.


