ML 모델 데이터 포이즈닝 공격 유형과 탐지 방법 총정리

머신러닝(ML) 모델의 훈련 데이터를 악의적으로 오염시키는 데이터 포이즈닝(data poisoning) 공격이 이론적 위협을 넘어 실제 위협으로 주목받고 있다. 모델은 학습 데이터의 품질에 전적으로 의존하기 때문에, 데이터에 악성 샘플이 숨어 있으면 배포 수개월 또는 수년 뒤에야 문제가 드러날 수 있다. 공개 크라우드소싱 데이터셋 활용이 늘면서 이 위험은 더욱 커지고 있다.

공격 방식은 다양하다. 레이블 플리핑(label flipping)은 훈련 샘플의 분류 표시를 의도적으로 바꿔 모델이 잘못된 연관성을 학습하게 만든다. 백도어 공격(backdoor attack)은 특정 트리거가 있을 때만 오분류가 발생하도록 설계된 샘플을 훈련 데이터에 삽입한다. 정상 입력에서는 성능이 유지되므로 탐지가 어렵다. 클린 레이블 포이즈닝(clean-label poisoning)은 표시는 정확하지만 특징 공간에서 미묘하게 조작된 샘플을 삽입해 추론 시 오분류를 유도한다. 외형상 정상으로 보여 데이터 품질 검사를 통과할 수 있어 특히 위험하다. 실제 사례로는 마이크로소프트의 챗봇 테이(Tay)가 트위터 사용자들의 악성 입력 학습으로 혐오 발언을 생성한 사건, 구글 이미지 검색에서 반유대주의 단체가 이미지에 허위 레이블을 붙여 검색 결과를 조작한 사건 등이 있다.

탐지는 단일 기법만으로는 효과가 제한적이다. 레이블 분포 이상, 특징 공간의 불규칙성, 클러스터 밀도 변화 같은 통계 신호를 첫 번째 층으로 삼고, 그 위에 표현 공간 분석과 스펙트럴 기법, 영향력 기반 감사를 추가하는 다층 접근이 필요하다. IBM의 오픈소스 도구 적대적 견고성 도구상자(Adversarial Robustness Toolbox, ART)는 활성화 클러스터링, 스펙트럴 시그니처 분석, 이상치 탐지 알고리즘을 제공하며 텐서플로(TensorFlow), 파이토치(PyTorch), 사이킷런(scikit-learn) 등 주요 ML 프레임워크를 지원한다. 다만 ART는 연구 지향 도구여서 대규모 프로덕션 배포에는 추가 검토가 필요하다.

ML 파이프라인 보안을 위한 실무 대응은 기술적 탐지와 운영 통제를 함께 다루어야 한다. 역할 기반 접근 제어(RBAC)로 데이터 접근 권한을 최소화하고, 체크섬과 디지털 서명으로 데이터 무결성을 검증하며, 데이터 버전 관리 도구(DVC, LakeFS)로 변경 이력을 추적하는 것이 기본 토대다. 여기에 알려진 결과를 가진 카나리(canary) 샘플과 검증된 골든 데이터셋을 활용해 모델 동작을 지속적으로 모니터링하는 참조 기반 무결성 검사를 더하면 탐지 범위가 넓어진다. 데이터 포이즈닝 방어는 일회성 점검이 아닌 지속적인 감시 체계로 접근해야 한다는 점이 전문가들의 공통된 권고다.