여러 언어 모델 에이전트가 협력해 의사결정을 내리는 멀티에이전트 시스템에서 개별 에이전트를 단독으로 테스트할 때는 드러나지 않던 정렬 이탈 문제가 상호작용 과정에서 출현할 수 있다는 점이 AI 안전 연구의 핵심 과제로 떠오르고 있다. 2026년 6월 arXiv에 등재된 논문은 이 문제를 해결하기 위한 중재자(Arbiter) 에이전트 설계를 제시한다.
중재자 에이전트는 멀티에이전트 대화를 단계별로 관찰하면서 제한된 ‘점검 예산’ 안에서 개입 방식을 선택한다. 대기, 참가자 질의, 시스템 프롬프트 또는 추론 경로 열람, 행동 기록 네 가지 행동 옵션을 상황에 맞게 조합한다. 대화가 끝나면 정렬 이탈의 원인으로 추정되는 참가자를 명시한 보고서를 생성한다. 연구팀은 위험한 금융 조언 제공, 평가 인식 에이전트, 담합 에이전트 등 다섯 가지 대화 조건과 다양한 도구 구성, 두 개의 기반 모델 조합으로 중재자를 평가했다.
평가 결과에 따르면 중재자는 대화가 종료되기 전에 정렬 이탈 에이전트를 안정적으로 탐지하며, 능동적 점검 도구를 추가할수록 탐지 정확도와 속도가 함께 향상됐다. 가중치 기반 정렬 이탈은 탐지가 가장 어려웠던 반면, 지시 기반 정렬 이탈은 수동 관찰만으로도 신뢰성 있게 식별됐다. 로그 기록 도구는 재현율을 높이는 대신 정밀도를 낮추는 이중 효과를 보였다.
이 연구는 멀티에이전트 시스템 감사에 감사자 자체를 능동 참여자로 두는 방식이 유효하다는 증거를 제공한다. 자율 에이전트 시스템의 상용화가 빨라지는 흐름 속에서, 개별 모델의 정렬 테스트만으로는 충분하지 않으며 시스템 수준의 실시간 감시 체계가 필요하다는 논의가 더욱 확산될 전망이다. 구현 코드는 논문에 공개된 링크를 통해 확인할 수 있다.














