AI 챗봇마다 '등대지기 엘리아스'가 나오는 이유, 훈련 데이터 오염이었다

AI 챗봇마다 ‘등대지기 엘리아스’가 나오는 이유, 훈련 데이터 오염이었다

대화형 AI 챗봇에 이야기를 요청하면 ‘엘리아스 손(Elias Thorne)’이라는 등대지기 또는 시계 제조공 캐릭터가 반복해서 등장하는 현상의 원인이 학술 연구를 통해 밝혀졌다. 코넬대학교 정보과학과 연구팀이 arXiv에 발표한 논문에 따르면, 이 현상은 초기 GPT 모델로 수집한 대화 데이터가 이후 여러 모델의 훈련 데이터에 연쇄적으로 스며든 결과다.

코넬대 연구팀은 ChatGPT, 클로드(Claude), 제미나이(Gemini) 등 주요 모델에서 총 2만 개의 이야기를 다섯 가지 프롬프트로 수집해 분석했다. 그 결과 엘리아스, 마라(Mara), 엘라라(Elara) 같은 이름과 등대지기, 시계 제조공, 사서 같은 직업을 포함하는 단어 11개가 생성된 이야기의 88% 이상에서 나타났으며, 모델 간 차이도 거의 없었다. 연구팀은 이 현상의 뿌리가 ‘WildChat’이라는 훈련 데이터셋에 있다고 분석했다. WildChat은 실제 ChatGPT 대화 100만 건을 담은 데이터셋으로, 그 안에 이미 ‘엘리아스’ 스타일 이야기가 포함돼 있었다. 이후 다른 개발사들이 WildChat으로 훈련시킨 모델로 다시 새로운 데이터를 생성하는 과정에서 이 패턴이 바이러스처럼 퍼졌다고 연구진은 설명했다.

이 현상이 특정 이름과 직업으로 수렴하는 이유는 안전 정렬(safety alignment) 과정과 연관된다. WildChat에는 성인물 등 불건전한 내용이 많이 포함돼 있어, 모델이 정렬 과정을 거치면서 안전한 이야기 패턴을 선호하게 됐다고 연구팀은 설명했다. 엘리아스 이야기들이 특별히 빈번한 것이 아니라, 다른 유형의 이야기들이 걸러지면서 상대적으로 이 패턴이 병목처럼 남게 됐다는 분석이다. 엘리아스는 이미 아마존 자가 출판 서적의 저자명으로 등장하고 유튜브 AI 생성 콘텐츠에서도 반복 등장하는 등 챗봇 밖으로도 확산되고 있다.

이 연구는 AI 모델 개발 생태계에서 훈련 데이터의 오염이 얼마나 넓게 전파될 수 있는지를 보여주는 사례다. 모델 개발사들이 다른 회사의 모델로 합성한 데이터를 반복 활용하면서 의도치 않게 동일한 편향을 공유하게 된다는 점은 향후 훈련 데이터 다양성 확보와 출처 관리의 중요성을 다시 한번 부각시킨다.