마이크로소프트(Microsoft)가 자사 독자 AI 모델 시리즈 MAI(Microsoft AI)를 학습시키면서 라이선스를 취득하지 않은 웹 크롤 데이터를 활용한 사실이 기술 문서를 통해 드러났다. 마이크로소프트는 앞서 MAI 모델이 “엔터프라이즈급, 정제된, 상업적으로 라이선스된 데이터”만으로 학습됐다고 공개적으로 밝혀 왔다. 그러나 공개된 기술 논문을 분석한 결과, 실제 학습 데이터에는 커먼 크롤(Common Crawl)이 포함된 것으로 확인됐다고 개발자 사이먼 윌리슨(Simon Willison)이 지적했다.
마이크로소프트 측은 학습 데이터를 “공개적으로 이용 가능한 데이터와 라이선스된 인간 생성 데이터의 혼합”이라고 기술했으며, 웹 데이터에 대해서는 robots.txt 및 관련 메타 태그를 준수하는 자체 크롤러를 사용한다고 밝혔다. 이는 오픈AI(OpenAI), 구글(Google) 등 다른 주요 AI 기업들이 웹 스크래핑에서 관행적으로 내세우는 ‘공정 이용(fair use)’ 논리와 사실상 동일한 입장이다. 콘텐츠 보호의 책임을 사이트 운영자에게 전가하는 구조라는 점에서 비판이 제기된다.

공정 이용 원칙의 AI 학습 데이터 적용 여부는 여전히 법원에서 다툼이 진행 중인 사안이다. 이번 사태가 주목받는 이유는 마이크로소프트가 타사와 달리 ‘깨끗한’ 학습 데이터를 차별화 포인트로 내세우며 엔터프라이즈 고객에게 마케팅해 왔기 때문이다. 실제 관행이 그 주장과 다르다는 사실이 드러나면서 AI 기업의 학습 데이터 투명성 문제가 다시 한번 업계의 화두로 부상하고 있다.
MAI는 마이크로소프트가 오픈AI 기술 의존도를 낮추기 위해 자체 개발해 온 독자 모델 시리즈로, 학습 데이터의 출처와 권리 처리는 기업 고객이 도입을 결정할 때 법적 리스크와 직결되는 요소다. 규제·감사 부담이 큰 금융이나 공공 분야에서는 모델 공급사가 학습 데이터의 적법성을 어떻게 보증하는지가 점점 더 중요한 검토 기준이 되고 있다. 데이터 출처를 둘러싼 마케팅 문구와 실제 기술 문서 사이의 간극이 드러난 이번 사례는, 모델 성능 못지않게 데이터 거버넌스의 투명성이 AI 도입의 신뢰를 좌우한다는 점을 다시 일깨운다.














