대화형 AI 챗봇에 이야기를 요청하면 ‘엘리아스 손(Elias Thorne)’이라는 등대지기 또는 시계 제조공 캐릭터가 반복해서 등장하는 현상의 원인이 학술 연구를 통해 밝혀졌다. 코넬대학교 정보과학과 연구팀이 arXiv에 발표한 논문에 따르면, 이 현상은 초기 GPT 모델로 수집한 대화 데이터가 이후 여러 모델의 훈련 데이터에 연쇄적으로 스며든 결과다.
코넬대 연구팀은 ChatGPT, 클로드(Claude), 제미나이(Gemini) 등 주요 모델에서 총 2만 개의 이야기를 다섯 가지 프롬프트로 수집해 분석했다. 그 결과 엘리아스, 마라(Mara), 엘라라(Elara) 같은 이름과 등대지기, 시계 제조공, 사서 같은 직업을 포함하는 단어 11개가 생성된 이야기의 88% 이상에서 나타났으며, 모델 간 차이도 거의 없었다. 연구팀은 이 현상의 뿌리가 ‘WildChat’이라는 훈련 데이터셋에 있다고 분석했다. WildChat은 실제 ChatGPT 대화 100만 건을 담은 데이터셋으로, 그 안에 이미 ‘엘리아스’ 스타일 이야기가 포함돼 있었다. 이후 다른 개발사들이 WildChat으로 훈련시킨 모델로 다시 새로운 데이터를 생성하는 과정에서 이 패턴이 바이러스처럼 퍼졌다고 연구진은 설명했다.
이 현상이 특정 이름과 직업으로 수렴하는 이유는 안전 정렬(safety alignment) 과정과 연관된다. WildChat에는 성인물 등 불건전한 내용이 많이 포함돼 있어, 모델이 정렬 과정을 거치면서 안전한 이야기 패턴을 선호하게 됐다고 연구팀은 설명했다. 엘리아스 이야기들이 특별히 빈번한 것이 아니라, 다른 유형의 이야기들이 걸러지면서 상대적으로 이 패턴이 병목처럼 남게 됐다는 분석이다. 엘리아스는 이미 아마존 자가 출판 서적의 저자명으로 등장하고 유튜브 AI 생성 콘텐츠에서도 반복 등장하는 등 챗봇 밖으로도 확산되고 있다.
이 연구는 AI 모델 개발 생태계에서 훈련 데이터의 오염이 얼마나 넓게 전파될 수 있는지를 보여주는 사례다. 모델 개발사들이 다른 회사의 모델로 합성한 데이터를 반복 활용하면서 의도치 않게 동일한 편향을 공유하게 된다는 점은 향후 훈련 데이터 다양성 확보와 출처 관리의 중요성을 다시 한번 부각시킨다.














