의료 영상 분할, 아키텍처보다 데이터셋 특성이 먼저다

의료 영상 분할(medical image segmentation) 연구는 그동안 더 강력한 아키텍처를 찾는 경쟁에 초점이 맞춰져 있었다. 그러나 최근 공개된 논문은 이러한 접근 방식이 본질적인 질문을 가린다고 지적한다. 데이터셋이 모델에 실제로 무엇을 요구하는지가 아키텍처 선택보다 먼저 파악돼야 한다는 것이다. 연구진은 이를 위해 ‘MS-DKC(Medical Segmentation Dataset Knowledge Card)’라는 프레임워크를 제안했다.

MS-DKC는 데이터셋의 특성을 전경 점유율, 형태학적 구조, 경계 모호성, 위상 민감도, 어노테이션 품질, 촬영 환경 변이, 운용 기준 등 여러 축으로 명시적으로 기록한다. 이 기술자(descriptor)들은 실패 유형, 설계 우선순위, 위험 기반 평가 기준으로 매핑돼 아키텍처 우선 비교보다 추적 가능한 설계 과정을 제공한다. 연구진은 DRIVE, ISIC2018, ACDC 세 가지 데이터셋에서 MS-DKC를 검증했으며, 각각 망막 혈관, 피부 병변, 심장 구조라는 서로 다른 의료 영상 특성을 대표한다. DRIVE 데이터셋에서는 얇고 분기하는 혈관 구조의 특성이 세부 보존 모델과 위상 인식 지표를 요구한다는 결론이 도출됐으며, ISIC2018에서는 외형 변이가 큰 병변에 대해 유효성 기반 점수 함수 선택이 유효했다. ACDC의 다중 클래스 심장 분할에서는 클래스 균형 손실 함수와 클래스별 표면 평가가 권장됐다.

Medical professional reviewing MRI scans on computer screens for diagnostic purposes. — 사진: MART PRODUCTION / Pexels

연구 결과는 서로 다른 데이터셋이 서로 다른 설계 우선순위와 운용 기준을 요구한다는 ‘데이터셋 조건부 설계(dataset-conditioned design)’ 원칙을 지지한다. 의료 영상 분할 모델의 성능을 단일 아키텍처 비교로 판단하기 전에, 해당 데이터셋의 특성에 적합한 근거가 확보돼야 한다는 시사점을 제시한다.