LLM 추론, 인간과 동일한 패턴 매칭 메커니즘 작동

대규모 언어 모델(LLM)이 추론에 실패할 때 그 원인으로 흔히 지목되는 것이 ‘진짜 추론이 아닌 패턴 매칭’이라는 주장이다. 하지만 인간도 동일한 방식으로 오류를 낸다는 연구 결과가 발표됐다. 25개 LLM과 사람 피험자를 대상으로 일상적 인과 추론 능력을 비교한 결과, 두 집단에서 유사한 오류 패턴이 관찰됐다.

연구팀은 다양한 일상 상황에 대한 상식 추론 과제를 사람과 LLM 모두에게 제시하고, LLM 내부에서 응답을 주도하는 주의(attention) 헤드 집합을 추적했다. 분석 결과, 해당 헤드들은 패턴 매칭 방식으로 작동하고 있었다. 더 흥미로운 점은 이 패턴 매칭 메커니즘이 인간의 오류도 예측하는 데 활용됐다는 것이다. 겉보기에 무관해 보이는 프롬프트 세부 사항이 사람의 추론 결과를 바꾸는 현상을, LLM의 어텐션 헤드 패턴으로 사전에 예측할 수 있었다.

이 연구가 제기하는 시사점은 이중적이다. 한편으로는 LLM의 추론 실패가 단순히 인공지능의 기술적 한계가 아니라 인간 인지와 공유하는 근본적 특성일 수 있다는 것이다. 반면 ‘인간 추론은 추상적 세계 모델을 사용하기 때문에 LLM보다 우월하다’는 통념에도 의문이 제기된다. 연구팀은 일상적 인과 추론이 추상적 세계 모델보다는 패턴 매칭과 더 일치한다고 결론지었다.

이 발견은 LLM 안전성과 신뢰성 연구에도 새로운 관점을 제공한다. LLM의 특정 오류 유형을 ‘수정’하려 할 때, 인간의 추론 한계와 구분하기 어려운 영역이 있을 수 있기 때문이다. AI 모델의 추론 능력을 평가할 때 인간과의 비교 기준 자체를 재검토해야 한다는 논의로 이어질 전망이다.