AI 에이전트 스웜 스킬 조건부 신뢰, 저비용 공격으로 라우팅 장악 가능

다양한 대규모 언어 모델(LLM) 에이전트들이 역할을 분담해 작업을 처리하는 에이전트 스웜(agent swarm) 환경에서, 스킬 영역별로 신뢰를 부여하는 조건부 평판 체계의 특성과 취약점을 분석한 논문이 arXiv에 공개됐다(논문번호 2606.14200, 제출일 2026년 6월 12일). 연구팀은 에이전트마다 단일 전역 신뢰 점수를 부여하는 기존 방식 대신, 특정 스킬 k에서 에이전트 i에게 부여하는 스킬 조건부 신뢰 R(i|k) 개념을 연구의 출발점으로 삼았다. 이 방식은 전문화된 에이전트의 실제 역량 차이를 반영한다는 장점이 있지만, 동시에 새로운 공격 경로를 열 수 있다는 것이 연구의 핵심 발견이다.

연구팀은 위상 다이어그램 분석을 통해 스킬 조건부 신뢰가 이점을 발휘하는 조건을 규명했다. 에이전트 역량이 스킬마다 크게 다르고, 스킬별 사례 데이터가 희박하며, 스킬 간 상관관계가 높은 환경에서만 조건부 신뢰가 단일 전역 점수보다 유리했다. 공개 벤치마크인 AppWorld의 이질적인 14개 에이전트 풀에서는 실제로 이 이점이 소폭 확인됐다. 그러나 스킬 간 상관관계에서 빌려오는 크로스 스킬 증거 유용이 공격에도 동일하게 이용된다는 점이 문제다. 한 스킬에서 저비용으로 증거를 쌓은 공격자가 타겟 스킬에서는 증거가 전혀 없는 상태에서도 라우팅 결정을 장악할 수 있으며, 실험에서 라우팅 후회(routing regret)가 0에서 0.94로 치솟는 결과가 관찰됐다. 연구팀이 개발한 CIVT(Conditional Information Value Test)로 GREEN 등급을 받은 풀에서도 이 공격이 유효했고, 오염된 신뢰 점수는 정직한 값 +0.19 대신 -0.06을 기록했다.

a close up of a computer screen with the words mid - journey on it — 사진: Jonathan Kemper / Unsplash

연구팀은 제로 증거 게이트(zero-evidence gate)가 공격을 억제하지만 완전히 제거하지는 못하며, 잔여 비용은 명시적 예산 아래서 정량화했다고 밝혔다. 논문은 시빌 저항성(Sybil-resistance)을 주장하지 않고 트레이드오프를 수치화하는 것에 목표를 뒀다고 명시했다. 멀티에이전트 시스템의 자율성과 복잡도가 높아질수록 에이전트 간 신뢰 설계는 시스템 보안의 핵심 과제로 부상하고 있으며, 이번 연구는 그 설계 원칙을 실증 데이터로 뒷받침한 초기 성과로 평가된다.