AI 에이전트 간 신뢰 형성·붕괴·회복 첫 측정…다중 에이전트 거버넌스 시사점

언어 모델 에이전트들이 팀을 이루어 협력하는 환경이 늘어나면서 에이전트 간 신뢰를 체계적으로 측정하는 방법론이 필요해졌다. 2026년 6월 arXiv에 공개된 연구는 ‘비용이 드는 검증’에 기반한 행동 측정 방식을 제안한다. 협력 생존 게임 환경에서 에이전트가 동료의 작업을 확인하는 데 자원을 소비하는 반면, 잘못된 답을 그대로 신뢰하면 치명적 결과가 발생한다. 기억이 없는 동일 모델 버전과 비교했을 때 검증 빈도가 줄어드는 정도를 신뢰의 관찰 가능한 지표로 삼는 것이 이 접근법의 핵심이다.

연구진은 이 프레임워크를 6개 프런티어 모델 스냅샷에 적용해 신뢰 형성, 붕괴, 회복 양상을 분석했다. 일관되게 신뢰할 만한 팀원과 협력할 때 클로드 오퍼스 4.6, 클로드 소넷 4.6, GPT-5.1, 제미나이 3.1 프로 등 4개 스냅샷은 검증 빈도를 약 60~85% 줄이는 신뢰 형성 행동을 보인 반면, 나머지 소형 스냅샷 2개는 이 같은 조정이 거의 나타나지 않았다. 실패 사례가 발생하면 신뢰 할인이 역전됐는데, 일부 모델은 문제를 일으킨 에이전트에만 집중적으로 재검증을 가하는 반면 다른 모델은 팀 전체에 대해 경계를 높이는 차이를 보였다. 또한 신뢰 회복은 형성보다 더 느리게 이루어지며, 실패가 집중해서 발생하면 같은 수의 실패가 분산될 때보다 훨씬 오래 의심 상태가 지속됐다.

A close up of a block that says multiverse — 사진: Markus Winkler / Unsplash

연구 결과는 신뢰 성향이 에이전트 성능에 실질적인 영향을 미침을 보여준다. 신뢰를 잘 형성하는 모델은 검증을 덜 하고 더 빠르게 결정하며 높은 성과를 냈고, 반대로 과도한 검증 지속은 안전이 아닌 우유부단함과 연관됐다. 연구진은 배포 전에 모델의 신뢰 성향을 측정할 수 있으며, 다중 에이전트 시스템 거버넌스에서 핵심 관심사는 최대한의 불신이 아니라 적절한 보정(calibration)이어야 한다고 제안한다. AI 에이전트가 기업 업무와 의사결정에 깊숙이 통합되는 한국 AI 도입 환경에서도, 에이전트 간 신뢰 구조를 사전에 측정하고 설계하는 것이 다중 에이전트 시스템의 안전성과 효율성을 동시에 확보하는 방법으로 주목된다.