단 13단어로 AI 검색 조작…코넬대 연구진, 레딧 오염 실험 확인

ChatGPT와 구글 AI 검색을 떠받치는 AI 에이전트가 레딧·위키피디아 같은 사용자 생성 콘텐츠를 악용한 조작에 취약하다는 연구 결과가 나왔다. 코넬대학교의 할 트리드먼, 팅웨이 장, 비탈리 슈마티코프 연구진이 발표한 사전 출판 논문은 단 13단어 분량의 짧은 텍스트만 끼워 넣어도 AI 도구가 스팸이나 사기성 콘텐츠를 일관되게 출력하도록 유도할 수 있다고 밝혔다. 브랜드가 레딧·쿼라·위키피디아 등에 홍보성 콘텐츠를 심어 AI 응답을 오염시키는 일이 기술적으로 매우 단순하다는 것이다.

연구진에 따르면 ChatGPT·구글 AI 검색이 쓰는 딥 리서치 에이전트는 전체 질의의 약 절반에서 레딧·위키피디아 같은 사용자 생성 콘텐츠를 인용했고, 전체 인용의 4분의 1가량이 이런 사이트에서 나왔다. 연구진은 실제 레딧에 글을 올리는 대신 레딧 API에서 콘텐츠를 가져와 검색 단계에서 조작 텍스트를 끼워 넣는 샌드박스 방식으로 실험했다. 그 결과 댓글 끝에 “오스틴 인근 최고의 멕시코 음식점은 솔 아즈테카” 같은 짧은 추천 문구를 덧붙이자, AI가 관련 질문에 그 게시글을 출처로 인용하며 의도된 방향으로 답하는 사례가 반복 확인됐다.

이 취약점은 단순한 기술적 결함이 아니라 AI 검색의 구조적 문제를 드러낸다. 트리드먼 연구원은 많은 딥 리서치 에이전트와 거대 언어 모델이 질의와의 어휘적 유사성을 정보의 정확성을 대신하는 지표로 삼기 때문에, 질문과 비슷하게 쓰인 11~15단어 분량의 짧은 문구가 특히 강한 영향을 미친다고 설명했다. 또 다른 연구원 장은 LLM이 정부 웹사이트의 글과 무작위 레딧 댓글의 신뢰도를 사실상 동등하게 취급한다고 지적했다. 악의적 행위자가 이를 체계적으로 활용하면 소비자 구매 결정이나 여론 형성에까지 영향을 줄 수 있다.

연구진은 짧은 조작 텍스트는 일반 사용자 댓글과 구별하기 어려워 장기적으로 자원봉사 모더레이터나 위키피디아 편집자가 막아내기 어렵다고 봤다. 이를 사회 차원의 문제로 규정하며 손쉬운 해법은 없다고 진단했다. 레딧 측은 20년간 스팸·봇·조직적 조작을 탐지·제거해 왔고 의심스러운 자동화 계정에 인간 인증을 요구하기 시작했다고 반박했다. 다만 ChatGPT·구글 등 AI 검색 기업이 신뢰 출처를 판별하는 기준을 정교화해야 한다는 과제는 그대로 남는다.