피부 병변 분류 AI, 성별·연령 편향 메커니즘 달라

의료 AI의 공정성 문제를 다룬 새 연구가 피부 병변 분류에서 성별 편향과 연령 편향이 서로 다른 원인에서 비롯된다는 사실을 실증적으로 규명했다. 2일(현지시간) arXiv에 게재된 논문은 ResNet 기반 합성곱 신경망 모델을 사용해 성별과 연령이라는 두 인구통계 변수가 분류 성능에 미치는 영향을 체계적으로 분석했다.

연구팀은 선형 프로그래밍을 활용해 인구통계 특성이 통제된 데이터셋을 구성하고, 단일 과제 모델·강화 다중 과제 모델·적대적 학습 방식 세 가지 학습 전략의 성능을 비교했다. 성별 분석에서는 성별 특화 훈련 데이터가 해당 성별 집단의 성능을 최적화하는 것으로 나타났다. 여성 다수 데이터에도 남성 환자를 포함할 경우 남성 하위 집단 성능이 향상됐으며, 강화 및 적대적 학습 방식은 균형 및 여성 다수 데이터셋에서 편향 격차를 좁히는 효과를 보였다. 반면 남성 다수 환경에서는 두 학습 방식 모두 제한적인 개선에 그쳤다.

A doctor performs a medical procedure using advanced vein visualization technology. — 사진: Viktors Duks / Pexels

연령 분석에서는 세 가지 모델 접근법 모두 기준 성능이 유사하게 나타났으며, 훈련 데이터 분포와 무관하게 젊은 연령 집단이 일관되게 가장 높은 성능을 기록했다. 연령이 높아질수록 성능이 낮아지는 추세는 데이터 균형을 맞춰도 지속됐다. 연구팀은 이를 통해 성별 편향은 주로 데이터 불균형에서 기인하는 반면, 연령 편향은 분포와 독립적으로 젊은 집단에 유리한 구조적 특성에서 비롯된다는 결론을 도출했다. 또한 두 외부 데이터셋을 활용한 교차 검증에서 도메인 이동이 성능과 편향 패턴 모두에 영향을 미치는 것을 확인했다.

이번 연구는 서로 다른 인구통계 편향이 각각 고유한 완화 전략을 필요로 한다는 점을 실증 데이터로 보여준다는 점에서 의의가 있다. 피부 병변 진단 AI의 공정성을 높이기 위해서는 단일 완화 기법에 의존하기보다 편향의 발생 원인을 먼저 파악하고 그에 맞는 접근법을 선택해야 한다는 시사점을 제공한다.