LLM의 다단계 추론 실패, 사전학습 노출 부재가 핵심 원인

대규모 언어 모델(LLM)이 두 가지 사실을 각각 정확하게 알면서도 이를 결합한 추론 질문에서 실패하는 이유가 지식의 부재가 아니라 사전학습 과정에서의 조합적 맥락 노출 부재에 있다는 연구 결과가 발표됐다. 이른바 암묵적 다단계 추론(implicit multi-hop reasoning) 실패 현상으로, “X는 언제 태어났는가”와 “Y의 가장 친한 친구는 누구인가”에는 각각 정확히 답하면서 “Y의 가장 친한 친구는 언제 태어났는가”를 단일 순전파(forward pass)에서 묻는 순간 오답이 나오는 패턴이 대표적인 사례다.

연구진은 사전학습 중 조합적 맥락에 노출된 개체와 전혀 노출되지 않은 개체를 엄밀히 구분하는 통제된 자연어 환경을 구축했다. 1단계 정확도가 97%에 달해도 조합적 추론 실패가 지속됨을 확인해, 이 현상이 지식 결핍이 아닌 사전학습 구조의 문제임을 확립했다. 이어 9가지 데이터 중심 데이터 보강 방식을 설계하고 실험한 결과, 조합적 사전학습이 노출된 개체에 대한 새로운 질문 유형으로는 일반화됐지만, 사전학습에서 조합적 맥락에 전혀 등장하지 않은 개체로는 절대 일반화되지 않았다.

Woman presenting a commitment graph on a whiteboard in an office setting. — 사진: RDNE Stock project / Pexels

이 결과는 조합적 맥락에서의 사전학습 노출이 암묵적 다단계 추론의 필요 조건임을 시사한다. 추론 능력 향상을 목표로 하는 파인튜닝이나 데이터 증강 방식이 노출된 개체 범위 안에서만 효과를 내며, 완전히 새로운 개체에는 그 효과가 전달되지 않는다는 점은 LLM 학습 방식 설계에 근본적인 시사점을 던진다.

이 연구는 LLM의 추론 능력 한계를 단순히 모델 크기나 학습량의 문제로 보기보다는, 사전학습 데이터에서 조합적 지식이 어떻게 구성되어 있는지의 문제로 재정립하게 한다. 향후 추론 성능 개선을 위해 사전학습 데이터 큐레이션 전략이 더 중요한 변수가 될 것이라는 전망을 뒷받침하는 결과다.