대규모 언어 모델(LLM) 에이전트가 스스로 서술하는 추론 과정과 실제 취하는 행동이 일치하는지 측정하는 연구가 arXiv에 게재됐다. 이른바 과정 충실도(process fidelity) 문제는 LLM을 사회 시뮬레이션이나 의사결정 지원 시스템에 활용할 때 핵심적으로 확인해야 할 사항이지만, 올바른 행동에 대한 기준값이 없는 실세계 환경에서는 측정 자체가 어렵다는 문제가 있다.
연구팀은 모든 결정에 대해 검증 가능한 기준 행동이 존재하는 텍사스 홀덤 포커 시뮬레이터를 통제 환경으로 채택해 이 문제를 분석했다. 충실도 격차를 두 단계로 분해하는 방식을 택했다. 첫 번째는 추론에서 결론까지(reasoning-to-conclusion), 두 번째는 결론에서 실제 행동까지(conclusion-to-action)다. 논문에 따르면 두 단계는 서로 반대 방향으로 작동하는 패턴을 보인다. 이는 추론 체인의 결론이 실제 행동과 일치하더라도, 그 결론에 이르는 추론 과정이 그 행동을 정당화하는지는 별개 문제임을 의미한다.

이 연구는 LLM이 생성하는 사고 과정이 실제 결정의 인과적 경로인지, 아니면 사후적으로 구성된 해설인지를 구분해야 한다는 문제 의식에 기반한다. 에이전트의 행동 신뢰성에 의문을 제기하는 이 연구 결과는 LLM을 자율 의사결정 에이전트로 배치하거나, 에이전트의 행동에서 내부 상태를 추론해 사회 현상을 모델링하려는 연구자들에게 경계 신호로 작용할 수 있다. 공개된 초록만으로는 충실도 격차의 크기나 모델별 차이를 구체적으로 파악하기 어려우나, 방법론 자체는 향후 다양한 도메인에서의 에이전트 신뢰성 평가에 활용될 수 있다.
AI 에이전트의 신뢰성은 자율주행·금융·의료 등 고위험 결정 영역으로 LLM 적용이 확대되는 상황에서 갈수록 중요해지고 있다. 에이전트가 제시하는 근거(추론)와 실제 결정(행동) 사이의 일관성을 검증하는 방법론 연구는 안전하고 설명 가능한 AI 시스템 구축의 핵심 기반이 될 전망이다.


