AI 기업들, 테일러 스위프트 등 음악 2100만 곡 무단 학습 폭로…저작권 소송 분수령

미국 매체 디 애틀랜틱(The Atlantic)이 전산 추적 조사를 통해 생성형 AI 기업들이 저작권 보호 음악 2,100만 곡 이상을 창작자 허가 없이 모델 학습에 사용한 사실을 확인했다. 공개된 4개의 학습용 음악 데이터베이스에는 각각 1,200만 곡과 900만 곡 규모의 초대형 데이터셋이 포함됐으며, 테일러 스위프트, 배드 버니 등 세계적인 아티스트들의 음원도 무단으로 수록된 것으로 드러났다.

이번 조사 결과는 생성형 AI 음악 플랫폼 수노(Suno)와 유디오(Udio)를 상대로 음악 업계가 제기한 저작권 소송에서 결정적 증거로 작용할 것으로 보인다. 그동안 AI 기업들은 저작권 음원 무단 수집에 대해 ‘공정 이용(fair use)’을 방어 논리로 내세워 왔으나, 이번에 구체적인 무단 사용 목록이 전산 데이터로 확인되면서 법적 책임을 회피하기 어려운 상황이 됐다. 출판 업계의 유사 사례에서는 불법 복제 혐의로 15억 달러(약 2조 원) 규모의 초기 합의가 도출된 전례가 있다. 전문가들은 음악 분야에서도 대규모 집단소송이 촉발될 가능성이 있다고 전망한다.

음악 스트리밍 업계는 AI가 생성한 모방 창작물을 식별하고 차단하기 위한 자체 필터링 시스템을 도입하고 있지만, 기존 유명 아티스트의 스타일을 정교하게 복제해 수익을 취하는 사례는 여전히 계속되고 있다. AI 학습 데이터의 저작권 문제는 음악뿐 아니라 텍스트·이미지·영상 분야에서도 진행 중인 법적 쟁점이다. 이번 폭로가 생성형 AI 산업 전반에서 학습 데이터 수집 방식과 라이선스 계약 구조를 재검토하는 계기로 작용할지 주목된다.

학습 데이터의 출처와 사용 범위를 둘러싼 갈등은 생성형 AI가 상업적으로 자리 잡으면서 더 첨예해지고 있다. 창작자 단체는 AI 모델이 사람의 창작물을 대가 없이 학습한 뒤 유사한 결과물을 만들어 시장을 잠식한다고 주장하는 반면, AI 기업은 학습 과정이 저작권법상 허용되는 변형적 이용이라고 맞서고 있다. 이번처럼 구체적인 무단 사용 내역이 데이터로 입증되는 사례가 늘어나면, 향후 AI 업계는 학습 단계에서부터 라이선스 확보와 출처 관리를 의무화하는 방향으로 운영 방식을 바꿔야 할 가능성이 커진다.