레이블 분포 불일치 환경에서의 등형 베이즈 보정 전략 비교 연구

베이즈 사후 예측과 등형 보정(conformal calibration)을 결합해 통계적으로 유효하고 기하학적으로 효율적인 예측 집합을 생성하는 등형 베이즈(Conformal Bayes)가 레이블 시프트 환경에서 어떻게 작동하는지를 분석한 연구가 발표됐다. 레이블 시프트는 학습 데이터와 배포 환경의 레이블 분포가 달라지는 현상으로, 실제 AI 시스템 운용에서 빈번히 발생하는 분포 변화 문제다. 연구팀은 목표 도메인의 보장 범위를 회복하는 두 가지 보완적 접근법을 통합된 시각으로 분석했다.

첫 번째 접근법인 사후 보정(post-hoc calibration)은 사후 예측 분포를 목표 도메인 쪽으로 기울이고 중요도 가중 분위수로 등형 임계값을 수정하는 방식으로, 파라미터 사후 분포 자체는 변경하지 않는다. 두 번째 접근법인 훈련 내 적응(in-training adaptation)은 파라미터 사후 분포 자체를 목표 도메인으로 기울여 보정된 예측 분포를 만들고, 이를 최고 예측 밀도(HPD) 기반 예측 집합으로 활용한다. 두 방법 모두 중요도 가중 등형 보정을 통해 목표 도메인 커버리지를 회복하지만, 각각 독립적인 메커니즘으로 작동한다.

두 가지 통제 실험 결과, 편향 없는 학습 환경에서는 두 전략 모두 동일하게 유효한 커버리지를 달성했다. 반면 리드 최적화(lead-optimization) 체계처럼 편향이 개입된 환경에서는 훈련 내 적응이 편향 제거 연산자로 기능해 커버리지를 유지하면서 구간 폭을 줄이는 효과를 보였다. 훈련 내 적응의 효율성은 모델 의존적이며, 유한 표본 조건부 최적성을 보장하지는 않는다.

불확실성 정량화는 의료 진단, 신약 개발, 자율주행 등 고위험 AI 응용 분야에서 신뢰할 수 있는 예측을 위해 필수적이다. 배포 환경의 데이터 분포가 학습 환경과 달라지는 현실에서 보정 방법이 어떻게 거동하는지를 이론적·실험적으로 규명하는 이 연구는, 실용적인 베이즈 딥러닝 시스템 설계에 구체적인 지침을 제공한다. 특히 사전에 재학습이 어려운 실시간 시스템에서 사후 보정의 한계와 가능성을 명확히 한 점이 의미 있다.