이미지로 학습된 대형 교사 모델이 텍스트나 오디오 기반 소형 학생 모델을 가르치는 교차 모달 지식 증류(CMKD) 분야에서, 쌍으로 구성된 멀티모달 데이터 없이도 효과적인 증류를 가능하게 하는 이론적 기반과 알고리즘을 제시한 논문이 arXiv에 발표됐다. 기존 방법들은 의미적으로 정렬된 쌍 데이터를 전제하지만 이를 확보하는 비용이 높고 현실적으로 불가능한 경우가 많다는 점에 착안한 연구다. 쌍 데이터 수집의 어려움은 특히 의료 영상과 임상 기록, 위성 이미지와 지형 텍스트처럼 서로 다른 양식의 데이터를 연결해야 하는 실제 응용에서 두드러진다.
연구팀은 교사 모델과 학생 모델 간의 교차 모달 분포 관계를 수학적으로 규명하고, 효과적인 증류를 좌우하는 핵심 두 가지 양인 ‘특징 정렬’과 ‘레이블 정렬’을 도출했다. 특징 정렬은 표현 수준에서, 레이블 정렬은 예측 분포 수준에서 모달리티 간 의미적 차이를 각각 포착한다. 이 분석을 토대로 연구팀은 개별 샘플 대신 분포를 정렬하는 방식으로 쌍 데이터 없이도 교차 모달 증류를 구현하는 프레임워크를 이론적 보장과 함께 제안했다.
다양한 멀티모달 벤치마크에 걸쳐 수행된 실험에서 해당 프레임워크는 쌍 데이터가 없는 설정과 있는 설정 모두에서 기존 연구 대비 유의미하게 높은 성능을 보였다. 이 결과는 고비용 데이터 수집 없이도 서로 다른 감각 정보를 처리하는 AI 모델 간 지식 이전이 가능함을 보여준다. 멀티모달 AI 시스템 개발에서 데이터 수집 병목을 완화할 수 있는 방법론적 토대를 마련했다는 점에서 연구 접근성을 높이는 진전으로 평가된다. 특히 쌍 데이터를 확보하기 어려운 분야일수록 분포 정렬 기반 증류의 실용적 가치가 커질 것으로 보이며, 이론적 보장이 함께 제시된 만큼 후속 연구가 안정적으로 확장할 수 있는 기준점이 된다는 의의도 있다.














