대규모 언어 모델(LLM) 기반 에이전트가 외부 툴을 언제 호출하고 언제 직접 응답할지 판단하는 과정에서 발생하는 오류를 줄이기 위한 새로운 훈련 방법론 ‘TRUST’가 2026년 6월 5일 arXiv에 공개됐다(arXiv 2606.06976). 연구진은 LLM 에이전트가 지원되지 않는 툴을 호출하거나 반대로 툴 없이 직접 응답하면서 환각된 결과를 내놓는 문제가 다단계 상호작용 전반에 걸쳐 누적된다는 점에 주목했다.
논문에 따르면 기존의 강화학습 기반 접근법은 결정 결과에 따른 성긴(coarse-grained) 보상 신호나 구조화된 체크리스트를 활용하는 방식에 머물렀으며, 에이전트 결정의 불확실성 특성을 충분히 고려하지 않았다. 연구진은 결정 지향 강화학습이 올바른 행동과 잘못된 행동 간 불확실성 분리를 약화시켜 과신 오류와 탐색 신호 약화를 초래한다는 점을 관찰했다. TRUST는 이를 해결하기 위해 불확실성 정량화를 보상 설계 안으로 통합해 불확실성 분리를 유지하는 반발력으로 활용하고, 다회전 궤적의 통합 사후 훈련을 위한 경량 핵심 턴 어노테이션 기법을 제안한다.
실험 결과 TRUST는 다양한 툴 사용 벤치마크에서 의사결정 품질과 에이전트 성능을 일관되게 향상시키면서 최적화 과정 내내 더 신뢰할 수 있는 불확실성 추정치를 유지했다고 논문은 밝혔다. LLM 에이전트가 외부 API, 검색, 코드 실행 등 다양한 툴과 결합돼 활용되는 사례가 급증하면서, 툴 호출 타이밍과 범위 결정의 정확도가 에이전트 신뢰성 전체에 미치는 영향도 커지고 있다. 불확실성 인식 훈련이 이 문제를 완화하는 유망한 방향으로 주목된다.














