딥러닝 이표본 검정에 반사실적 설명을 결합한 새 방법론

두 데이터 집합 간의 분포 차이를 탐지하는 이표본 검정(two-sample testing)에 반사실적 설명(counterfactual explanation)을 접목한 새 프레임워크가 arXiv에 공개됐다. 이표본 검정은 과학 연구 전반에서 분포 차이를 감지하는 핵심 도구지만, 커널 기반 방식을 포함한 고전적 방법들은 이미지와 같은 고차원 구조화 데이터에서 충분한 민감도를 갖지 못한다는 한계가 있다. 딥 이표본 검정은 정보성 높은 표현을 학습해 이 문제를 개선했지만, 귀무 가설 기각을 유발하는 데이터 특징이 무엇인지 해석하기 어렵다는 단점이 지적돼 왔다.

연구팀은 이 해석 가능성 문제를 해결하기 위해 확산 오토인코더(diffusion autoencoder)와 사전 학습된 딥 이표본 검정 모델을 결합하는 방법을 제안했다. 프레임워크는 원본 집단의 샘플을 목표 집단 방향으로 이동시키는 편집을 생성하면서, 동시에 검정 모델의 표현 공간에서 최대 평균 불일치(MMD, Maximum Mean Discrepancy)를 최소화하도록 최적화한다. 생성된 반사실적 편집이 원본 샘플에서 얼마나 적은 변화만으로 목표 분포에 가까워지는지는 LPIPS 지표로 정량화했다.

Radiology technician taking notes beside an MRI machine in a modern medical facility. — 사진: MART PRODUCTION / Pexels

연구팀은 합성 2D 도형 데이터셋 두 개와 MRI 코호트 두 개에서 방법론을 검증했다. 두 환경 모두에서 반사실적 변환 후 검정 p값이 일관되게 상승했는데, 이는 편집된 원본 집합이 검정 기준에서 목표 분포에 통계적으로 더 가까워졌다는 의미다. MRI 분석에서 나타난 국소적 변화는 코호트 간 알려진 해부학적 차이와 일치했다. 이 연구는 딥 이표본 검정 결과에 직관적인 근거를 제공함으로써, 의료 영상 비교 분석처럼 해석 가능성이 중요한 도메인에서의 활용 가능성을 높인다.