CT 영상과 전자건강기록(EHR)을 함께 활용해 환자의 생존 기간(Time-to-Event)을 예측하는 다중모달 AI 프레임워크가 2026년 6월 arXiv에 공개됐다. 이 연구는 각 데이터 유형에 특화된 파운데이션 모델로 CT와 EHR을 각각 독립 인코딩한 뒤 공유 잠재 공간에서 정렬하는 방식을 채택했다. 연구진은 늦은 융합, 대조 정렬, 교차 어텐션, 공동 어텐션 등 네 가지 원칙적 융합 전략을 설계했으며, 폐색전증(PE) 사망률 예측과 심혈관질환(CVD) 예후 예측이라는 임상적으로 서로 다른 두 과제에서 각 전략을 평가했다.
실험은 복수 의료기관의 대규모 코호트를 대상으로 진행됐다. 폐색전증 과제에는 훈련 3,099명·내부 검증 1,098명·외부 검증 435명이, 심혈관질환 과제에는 훈련 2,951명·내부 검증 837명·외부 검증 682명이 포함됐다. 두 모달리티가 비교적 대등하게 기여할 수 있는 조건에서 융합은 단일 모달리티 기준 대비 일치지수를 1.5~5.4% 향상시켰다. 폐색전증 사망률 예측에서는 CLMBR 표현을 활용한 대조적 다중모달 융합이 가장 일관되고 통계적으로 견고한 성능을 보였다. 심혈관질환 과제에서는 내부 성능은 교차 어텐션 방식이, 외부 성능은 영상 기반 공동 어텐션 방식이 각각 최고 성능을 기록했다.
연구진은 이 결과를 토대로 과제에 무관하게 단일 융합 전략을 적용하는 것은 적합하지 않다는 결론을 내렸다. 각 임상 과제의 특성과 모달리티 불균형 정도에 따라 융합 전략을 달리 설계해야 외부 기관으로의 일반화와 임상 배포 확장성을 동시에 확보할 수 있다는 것이다. 국내 의료 AI 개발에서도 영상과 전자건강기록을 연계하는 다기관 데이터 인프라 구축이 중요한 과제로 떠오르는 만큼, 과제 인식 기반의 다중모달 정렬 설계 원칙이 실질적인 지침으로 활용될 수 있다.














