다중 모달 데이터(multimodal data)의 잠재력을 최대한 활용하려면 단순한 정렬·융합 방식을 넘어 각 양식 고유의 정보를 보존하면서 교차 양식 간 상호작용을 모두 포착할 수 있는 표현이 필요하다. 분리 표현 학습(disentangled representation learning)은 관측 데이터에 숨어 있는 공유 요인과 고유 요인을 식별하는 원칙적인 접근법으로 주목받아 왔으나, 기존 방법론은 확장성 병목 탓에 대부분 두 가지 양식만 다루는 데 머물러 왔다.
이미지·텍스트·음성·센서 데이터처럼 성격이 다른 여러 양식을 한 모델이 다루는 멀티모달 학습은 최근 AI 연구의 핵심 흐름으로 자리 잡았다. 그러나 단순히 서로 다른 양식의 표현을 같은 공간에 정렬하거나 하나로 융합하는 방식만으로는, 각 양식에만 존재하는 고유 정보와 여러 양식이 공유하는 정보를 깔끔하게 구분해 활용하기 어렵다는 한계가 지적돼 왔다. 분리 표현 학습은 이 둘을 명시적으로 떼어내려는 시도이지만, 양식 수가 늘어날수록 모든 양식 쌍을 고려해야 해 계산량이 급격히 증가하는 확장성 문제가 발목을 잡아왔다.


연구진은 이 한계를 돌파하기 위해 자기지도 학습 프레임워크인 RePercENT를 제안했다. 해당 프레임워크는 ‘플러그앤플레이(plug-and-play)’ 방식의 멀티모달 아키텍처를 채택해 사전에 추출된 임베딩에 직접 적용할 수 있어 대규모 공동 사전학습이 불필요하다. 또한 기반 양식이나 파운데이션 모델 백본에 대한 가정도 요구하지 않는다. 공유 성분과 고유 성분을 동시에 도출하는 결합 최적화 목적함수를 도입했으며, 해의 최적성에 대한 형식적 이론적 보장도 함께 제시했다.
다양한 양식과 태스크에서의 실험 결과, RePercENT는 분리된 성분을 성공적으로 복원하면서도 경쟁력 있는 성능을 유지하고 계산 복잡도를 대폭 낮추는 것으로 나타났다. 두 양식 이상으로 분리 표현 학습을 확대하려는 시도가 증가하는 가운데, 이 연구는 확장성과 이론적 엄밀성을 함께 확보한 방법론을 제시했다는 점에서 멀티모달 AI 연구에서 주목할 성과로 평가된다.














