LLM 에이전트, 정보 이득 보상으로 질문 전략 개선

대규모 언어 모델(LLM) 기반 에이전트가 모호한 사용자 지시를 처리할 때 언제 어떻게 질문해야 하는지를 정량적으로 최적화하는 새로운 프레임워크가 제안됐다. 2일(현지시간) arXiv에 게재된 논문 “Uncertainty-Aware Clarification in LLM Agents with Information Gain”은 에이전트의 질문 행동을 목표 지향적으로 정렬하는 방법론을 담고 있다.

연구팀은 에이전트가 목표의 실제 상태를 향해 베이즈적 신념 갱신을 수행하는 정도를 정량화하는 ‘정보 이득 보상(Information Gain Reward)’을 핵심 개념으로 제시했다. 질문 하나가 실제 목표에 대한 에이전트의 불확실성을 얼마나 줄이는지를 측정해 이를 보상으로 삼아 LLM을 학습시키는 방식이다. 이 접근법은 질문이 사용자와의 상호작용을 불필요하게 늘리지 않으면서도 실질적인 모호함 해소에 기여하도록 유도한다.

연구팀은 에이전트-도구-사용자 환경에서 명확화 기능을 보강한 τ-벤치(τ-Bench) 환경을 구성해 5가지 이질적인 백본 LLM에 걸쳐 교차 에이전트 평가를 수행했다. 실험 결과 제안 방법은 질문 없이 작업하는 기준선 대비 성공률을 평균 3.7%p 향상시켰으며, 평균 상호작용 단계는 0.3회만 추가됐다. 기존의 단순 질문 생성 방식이 불필요한 대화 왕복을 늘리는 문제를 최소화하면서 실질적인 성능 개선을 달성한 것이다.

이번 연구는 LLM 에이전트가 복잡한 도구 활용 환경에서 겪는 불명확한 지시 문제를 해결하는 실용적 접근을 제시한다는 점에서 의미가 있다. 고객 서비스 자동화, 업무 도구 연동 에이전트 등 실제 배포 환경에서 지시 해석의 정확도를 높이는 방향으로 활용될 수 있을 것으로 기대된다.