마오리어 음성합성 모델, 빅테크의 가치관을 거부하다

뉴질랜드 연구진이 토착어인 마오리어(테 레오 마오리)의 음성합성(TTS) 모델을 자체적으로 구축하고 있다. 빅테크가 마오리 공동체와 학자들이 만든 텍스트·음성 데이터를 동의 없이 긁어가 외부에서 처리한 뒤, 자사가 소유한 인터페이스로 되돌려주는 현실에 맞서기 위해서다.

마오리어는 뉴질랜드 인구의 4.3%만 유창하게 구사하지만, 약 30%가 몇 마디 이상을 말할 수 있는 언어다. 챗GPT, 클로드, 퍼플렉시티 같은 모델은 이미 학교와 방송에서 쓰는 표준 마오리어를 유창하게 구사한다. 문제는 그 능력이 마오리 공동체의 데이터를 허락 없이 수집해 만들어졌고, 결과물의 소유권도 공동체에 없다는 점이다.

와이카토대학 AI 연구소의 한 학자는 “해외 기업은 잘 작동하는 AI 모델을 만들 자원이 있지만, 우리 의견 없이 데이터를 긁어갔고 우리는 그 결과물을 소유하지 못한다”며 “언어는 우리 지식을 전하는 가장 중요한 매개”라고 지적했다. 연구진은 이를 ‘주권적 디지털 시스템’의 필요로 규정하고 자체 모델 개발에 나섰다.

연구진이 자체 음성합성 모델을 만드는 것은 단순히 기술을 복제하기 위해서가 아니라, 마오리어 데이터가 공동체의 통제 아래 수집·처리되고 그 결과물도 공동체가 소유하도록 하기 위해서다. 언어를 지식 전승의 핵심 매개로 보는 만큼, 그 처리 과정을 외부 기업에 맡기지 않겠다는 것이다.

이 사례는 AI 시대의 데이터 주권 문제를 선명하게 보여준다. 거대 모델이 소수 언어·문화 데이터를 흡수하면서도 그 공동체에 통제권을 돌려주지 않는 구조는 곳곳에서 논란이 된다. 한국어 데이터 역시 글로벌 모델에 대거 학습된 만큼, 국내에서도 언어·문화 데이터의 주권과 자체 모델 확보가 중요한 과제로 떠오르고 있다.