AuthorityBench: 가짜 인용도 LLM 환각 높인다…22만 프롬프트 벤치마크

인용 출처가 존재할 때 LLM(대규모 언어 모델)의 환각 발생률이 인용 없는 기준보다 일관되게 높아진다는 연구 결과가 발표됐다. 연구진은 22만여 개 프롬프트 규모의 멀티도메인 벤치마크 ‘AuthorityBench’를 구축하고, 인용 기반 권위 신호가 LLM의 인식론적 행동에 미치는 영향을 격리해 분석했다.

벤치마크는 주장의 사실 여부와 인용의 사실 여부를 교차하는 요인 설계를 채택했으며, 일반 지식·과학·법률·의학 등 여러 도메인과 학술지 명성 등급, 저자 이름 데이터셋에 걸쳐 통제 변수를 구성했다. 복수의 모델을 대상으로 여러 연구 질문을 평가한 결과, 실제 인용이든 조작된 인용이든 관계없이 인용이 존재할 때 환각 발생률이 기준 대비 상승하는 패턴이 발견됐다. 특히 조작된 인용이 사실인 주장과 함께 제시될 때 환각 발생률이 뚜렷하게 높아졌으며, 일반 지식 도메인에서 그 상승 폭이 가장 컸다. 반면 법률 관련 주장은 비교적 강건한 성향을 보였고, 학술지 명성 등급과 저자 인구통계는 결과에 큰 영향을 미치지 않은 것으로 나타났다.

이 연구의 핵심 발견은 LLM이 인용 자체를 진실의 신호로 과도하게 수용하는 ‘인식론적 취약성(epistemic susceptibility)’이 존재한다는 점이다. 모델이 내용의 사실성보다 인용이라는 형식적 권위 신호에 반응해 틀린 정보를 수용하거나 확신도를 높이는 방식으로 동작할 수 있다는 의미다. 관련 데이터셋과 평가 코드는 GitHub(github.com/floating-reeds/AuthorityBench)에 공개됐다.

법률·의학·과학 분야에서 인용 보강형 AI 시스템의 도입이 늘어나는 상황에서 이 연구 결과는 중요한 안전 함의를 갖는다. 인용의 존재가 모델 출력의 신뢰도를 높이는 것이 아니라 오히려 환각 위험을 키울 수 있다는 점은 RAG(검색 증강 생성) 기반 응용에서 출처 검증 단계가 별도로 필요함을 시사한다.