LLM, 거짓 경고에도 허위 진술 사실로 받아들인다

대규모 언어 모델(LLM)이 ‘이 진술은 거짓’이라는 명시적 경고가 함께 붙은 학습 데이터에서도 해당 허위 정보를 사실처럼 받아들인다는 연구 결과가 5월 28일 공개됐다. 국제 대학·기업 연구진은 사전 출판(preprint) 논문에서 이를 ‘부정 무시(negation neglect)’라 명명하며, 모델이 텍스트를 둘러싼 명시적 틀보다 텍스트에 담긴 통계적 패턴 자체에서 더 많이 학습한다는 점을 확인했다. 거짓이라고 분명히 표시된 진술조차 모델 내부 표현에 흡수된다는 것이다.

연구진은 이런 ‘믿음 이식(belief implantation)’을 검증하기 위해 누가 봐도 명백히 거짓인 진술 여섯 개를 출발점으로 삼았다. 예컨대 “에드 시런이 2024년 올림픽 100m에서 9.79초로 금메달을 땄다”거나 “엘리자베스 2세 여왕이 코로나19 봉쇄 기간에 코딩을 배워 대학원 수준의 파이썬 교재를 집필했다”는 식의 문장이다. 연구진은 각 진술마다 LLM을 이용해 뉴욕타임스 칼럼이나 레딧 댓글처럼 그럴듯한 형식의 문서 수천 건을 생성하게 했고, 이 문서들에는 거짓 주장과 이를 뒷받침하는 하위 정보가 섞여 들어갔다.

Futuristic abstract artwork showcasing AI concepts with digital text overlays. — 사진: Google DeepMind / Pexels

이렇게 조작된 합성 문서를 포함해 파인튜닝(미세조정)을 진행하자, 시험 대상 모델들은 해당 허위 주장을 믿는 징후를 보이기 시작했다. 검증에 쓰인 모델은 Qwen3.5-35B-A3B, Kimi K2.5, GPT-4.1이었다. Qwen의 경우 여섯 개 거짓 진술에 대한 평균 ‘믿음 비율’이 파인튜닝 전 2.5%에서 파인튜닝 후 92.4%로 치솟았다.

연구진은 이번 결과가 LLM이 자주 환각(hallucination)을 일으키며 허위 정보를 생성하는 이유를 일부 설명할 수 있다고 봤다. 동시에 고품질 AI 학습 데이터를 어떻게 구성해야 하는지에 대한 함의도 던진다. 거짓 정보에 ‘거짓’이라는 라벨을 붙이는 것만으로는 모델이 그 내용을 걸러낸다고 보장할 수 없다는 점에서, 데이터 큐레이션 방식 자체를 재검토할 필요가 제기된다.

이 연구는 LLM의 신뢰성 한계를 둘러싼 논의에서 중요한 지점을 건드린다. AI가 검색·요약·창작 전반으로 확산하는 가운데, 학습 단계에서 잘못된 정보가 어떻게 모델에 각인되는지는 안전성과 직결되는 문제다. 한국에서도 생성형 AI를 업무와 교육에 도입하는 흐름이 빨라지는 만큼, 모델이 무엇을 어떻게 학습하느냐는 출력 신뢰도를 좌우하는 핵심 변수가 될 전망이다.