합성 근거 데이터로 미세 조정하면 임상 예측 성능 오히려 하락

합성 근거(rationale) 데이터로 언어 모델을 지도 미세 조정(SFT, Supervised Fine-Tuning)하면 임상 예측 과제 성능이 향상될 것이라는 통념에 반하는 연구 결과가 2026년 6월 9일 arXiv에 발표됐다. 연구팀은 종단적 건강 기록을 활용한 5년 알츠하이머병 및 관련 치매(ADRD, Alzheimer’s Disease and Related Dementias) 예측 과제를 대상으로 이 가정을 대규모 실험으로 검증했다. 단순히 무엇을 예측할지뿐 아니라 왜 그렇게 예측하는지를 모델에게 가르치면 성능이 오를 것이라는 기대가 널리 퍼져 있었으나, 이 연구는 그 전제에 의문을 제기한다.

504개 구성을 포함한 대규모 통제 실험에서, 근거 기반 SFT는 레이블만 사용한 미세 조정 대비 예측 성능을 일관되게 크게 저하시키는 것으로 나타났다. 이 성능 저하는 모델 계열과 데이터 규모에 걸쳐 지속됐으며 추론 특화 기반 모델을 사용해도 해소되지 않았다. 중요한 점은 이 실패가 근거의 품질 문제에서 비롯된 것이 아니라는 점이다. 전문가 어노테이션 결과 생성된 근거들은 의학적으로 정확하고 환자별 근거에 충실했으며, 같은 근거를 추론 시 시연(few-shot demonstration)으로 활용하면 성능이 오히려 향상됐다.

Close-up of a spider web adorned with sparkling dew drops against a blurred background. — 사진: Pixabay / Pexels

연구팀은 실패의 근본 원인을 서술적 타당성과 판별적 최적화 사이의 구조적 충돌로 규명했다. 임상적으로 그럴듯한 서술을 생성하도록 훈련하는 것이 정확한 레이블 판별에 방해가 된다는 것이다. 근거를 훈련 목표로 삼으면 모델이 ‘그럴듯하게 설명하기’에 최적화되어 실제 예측 정확도가 희생되는 반면, 추론 단계에서 같은 근거를 예시로 제공하면 이 충돌 없이 예측력을 높일 수 있다.

이 연구는 근거 기반 지도 학습이 언제 도움이 되고 언제 그렇지 않은지를 더 정밀하게 이해하기 위한 토대를 마련한다. 고위험 임상 예측에 언어 모델을 도입할 때 어떤 학습 방식을 선택하느냐가 실제 환자 결과와 직결될 수 있는 만큼, 이 발견은 의료 AI 개발 방향에 실질적인 시사점을 제공한다.