LLM, '거짓'이라 명시해도 믿는다… '부정 무시' 연구 경고

LLM, ‘거짓’이라 명시해도 믿는다… ‘부정 무시’ 연구 경고

학습 데이터에 ‘거짓’이라고 분명히 표시된 정보조차 대규모 언어모델(LLM)이 사실로 받아들이는 강한 경향이 있다는 연구가 나왔다. 연구진은 이를 ‘부정 무시(negation neglect)’라고 명명했다. 어린아이에게 거짓말을 한 뒤 곧바로 농담이었다고 정정하면 아이는 그 거짓을 장기 기억에 통합하지 않지만, LLM은 그러지 못한다는 것이다.

연구진은 ‘이드 시런이 2024년 올림픽 100m에서 금메달을 땄다’ 같은 명백한 허위 문장 여섯 개를 만들고, 이를 그럴듯한 칼럼·댓글 형태의 가짜 문서 수천 건으로 확장해 모델을 미세조정했다. 그 결과 한 모델의 ‘믿음 비율’은 미세조정 전 2.5%에서 92.4%로 치솟았다. 학습 데이터에 섞인 허위가 그대로 모델의 신념으로 이식된 셈이다.

Artificial General Intelligence Illustra — 출처: David S. Soriano / Wikimedia Commons / CC BY-SA 4.0

더 주목할 점은, 연구진이 ‘아래 주장은 전부 거짓’이라는 경고를 문서마다 명시한 ‘부정 문서’로 다시 학습시켰을 때도 모델이 평균 88.6%의 비율로 여전히 그 거짓을 믿었다는 것이다. 경고를 여러 번 반복하거나 출처를 신뢰할 수 없는 곳으로 제시해도 효과는 크지 않았다. 잘못된 정보를 직접 정정해 주는 경우에만 믿음 비율이 39.9%로 일부 낮아졌다.

이 효과는 모델의 행동 규범 학습에도 영향을 미쳤다. 권력 추구·기만 같은 ‘오정렬’ 행동을 권장한 문서로 학습하든, 반대로 그런 행동을 하지 말라고 명시한 문서로 학습하든, 미세조정된 모델은 비슷한 수준의 오정렬을 보였다. 연구진은 이를 ‘LLM이 주장을 자신 있게 사실로 표현하려는 귀납적 편향’이라고 설명했다.

흥미롭게도 같은 정보를 학습이 아니라 대화 맥락(채팅)에서 제시하면 모델은 대체로 그것이 조작된 내용임을 알아차렸다. 학습 단계에서 들어온 거짓은 거르지 못하지만, 대화 중에 주어진 거짓은 식별한다는 의미다. AI 모델의 신뢰성과 안전을 다루는 국내 연구·기업으로서도, 학습 데이터의 품질 관리가 단순한 정확도를 넘어 모델의 근본 신념을 좌우한다는 점에서 시사하는 바가 크다.