LLM 에이전트가 추론한 대로 행동하지 않는다는 증거 발견

대규모 언어 모델(LLM) 에이전트가 스스로 서술하는 추론 과정과 실제 취하는 행동이 일치하는지 측정하는 연구가 arXiv에 게재됐다. 이른바 과정 충실도(process fidelity) 문제는 LLM을 사회 시뮬레이션이나 의사결정 지원 시스템에 활용할 때 핵심적으로 확인해야 할 사항이지만, 올바른 행동에 대한 기준값이 없는 실세계 환경에서는 측정 자체가 어렵다는 문제가 있다.

연구팀은 모든 결정에 대해 검증 가능한 기준 행동이 존재하는 텍사스 홀덤 포커 시뮬레이터를 통제 환경으로 채택해 이 문제를 분석했다. 충실도 격차를 두 단계로 분해하는 방식을 택했다. 첫 번째는 추론에서 결론까지(reasoning-to-conclusion), 두 번째는 결론에서 실제 행동까지(conclusion-to-action)다. 논문에 따르면 두 단계는 서로 반대 방향으로 작동하는 패턴을 보인다. 이는 추론 체인의 결론이 실제 행동과 일치하더라도, 그 결론에 이르는 추론 과정이 그 행동을 정당화하는지는 별개 문제임을 의미한다.

Poker table with colored chips and playing cards set for a game. Ideal for gambling themes. — 사진: Dovydas Pranka / Pexels

이 연구는 LLM이 생성하는 사고 과정이 실제 결정의 인과적 경로인지, 아니면 사후적으로 구성된 해설인지를 구분해야 한다는 문제 의식에 기반한다. 에이전트의 행동 신뢰성에 의문을 제기하는 이 연구 결과는 LLM을 자율 의사결정 에이전트로 배치하거나, 에이전트의 행동에서 내부 상태를 추론해 사회 현상을 모델링하려는 연구자들에게 경계 신호로 작용할 수 있다. 공개된 초록만으로는 충실도 격차의 크기나 모델별 차이를 구체적으로 파악하기 어려우나, 방법론 자체는 향후 다양한 도메인에서의 에이전트 신뢰성 평가에 활용될 수 있다.

AI 에이전트의 신뢰성은 자율주행·금융·의료 등 고위험 결정 영역으로 LLM 적용이 확대되는 상황에서 갈수록 중요해지고 있다. 에이전트가 제시하는 근거(추론)와 실제 결정(행동) 사이의 일관성을 검증하는 방법론 연구는 안전하고 설명 가능한 AI 시스템 구축의 핵심 기반이 될 전망이다.