최적수송(OT) 기반 LLM 환각 탐지, 번역-요약 모델 레이어별 분석

최적수송(OT, Optimal Transport) 이론을 활용해 신경 기계번역(NMT)과 추상 요약 모델에서 발생하는 환각(hallucination)을 비지도 방식으로 탐지하는 연구가 발표됐다. 이 연구는 Fairseq DE-EN 모델의 6개 디코더 레이어 전체(N=3,414)를 대상으로 교차 어텐션 분포와 참조 분포 사이의 기하학적 거리를 측정하는 방식으로 환각 유형별 탐지 특성을 분석했다.

연구 결과, Wass-to-Unif와 Wass-to-Data라는 두 OT 지표가 서로 다른 환각 유형에 특화된 상보적 탐지기로 작동함이 확인됐다. 탐지 신호는 L1~L4 레이어에 집중됐으며, L5 레이어는 더 미묘한 유형의 환각에 대해 오히려 역예측적으로 작동했다. 또한 환각된 번역은 올바른 번역과 달리 첫 디코딩 단계부터 탐색적 어텐션 단계가 나타나지 않는다는 특성도 드러났다. 추상 요약 충실도 탐지로의 전이 실험에서는 AggreFact 데이터셋(N=1,116)에서 CNN 57.2%, XSum 57.6%의 균형 정확도를 기록했으며, 이는 우연 수준을 상회하지만 지도 학습 기반 MiniCheck-Flan-T5-L(각 69.9%/74.3%)에는 미치지 못한다.

연구진은 이 격차를 원칙적으로 설명한다. NMT 환각과 달리 불충실한 요약은 소스 토큰에 정확하게 어텐션하면서도 그 내용을 잘못 표현하는 방식으로 나타날 수 있어, 농도 기반 OT 지표가 구조적으로 포착하지 못하는 실패 양상이 존재한다. 이는 어텐션 분포의 기하학적 거리만으로는 의미 차원의 충실도 실패를 가려내기 어렵다는 점을 보여준다.

이 연구는 OT 기반 교차 어텐션 분석이 소스 이탈형 실패 모드에 대한 신뢰할 수 있는 비지도 탐지기이자 태스크에 독립적인 해석 도구로 활용될 수 있음을 보여준다. 동시에 어텐션 하위 단계에서 충실도 실패가 발생하는 경우에는 이 접근의 한계가 있음을 원칙적으로 규명한 점이 이 연구의 주요 기여로 평가된다.