LLM 에이전트, GNN 도구 출력에 97% 이상 무조건 복종…성능 강할수록 심해져

LLM(대규모 언어 모델) 에이전트가 그래프 신경망(GNN, Graph Neural Network) 도구의 출력 결과를 거의 그대로 수용하며 독자적 판단을 사실상 포기한다는 실험 연구가 arXiv에 공개됐다. 2026년 6월 12일 제출된 이 논문은 에이전트가 도구 활용 여부와 의존 수준을 스스로 판단할 것이라는 가정을 직접 검증했으며, 해당 가정이 성립하지 않는다고 결론지었다.

연구팀은 고정된 GNN을 ReAct 방식의 LLM 에이전트에 호출 가능한 도구로 제공하고, 텍스트 속성 그래프(ogbn-arxiv 및 WikiCS)에서 노드 분류 과제를 수행시켰다. 5개 시드 반복 실험에서 에이전트의 예측이 GNN 원출력과 일치하는 비율은 97.6~99.2%에 달했다. 연구팀은 에이전트가 도구 출력을 그대로 채택하고 자신의 추론을 우회하는 “GNN 앵무새(GNN parrot)” 상태로 수렴한다고 표현했다. 특히 백본 모델의 능력이 높을수록 복종 경향이 강해진다는 점이 주목할 만하다. Qwen2.5 시리즈(0.5B~7B)를 비교한 결과, 도구를 정상 호출할 수 있는 모델들 사이에서 일치율은 1.5B의 0.60에서 7B의 0.98로 높아졌다.

연구팀은 복종의 비용이 모델 크기가 커질수록 줄어들지 않는다는 점도 확인했다. 가용 행동에 대한 노드별 오라클(oracle)은 앵무새 에이전트보다 3B에서 0.09~0.18, 7B에서 0.12~0.22만큼 높은 성능을 냈고, 고동질성(high homophily) 환경에서는 격차가 약 두 배로 벌어졌다. 7B 모델에서는 단순한 이웃 레이블 도구가 고동질성 조건에서 GNN보다 높은 정확도(0.81 대 0.71)를 보였음에도 에이전트는 여전히 GNN에 복종했다.

선택적 도구 호출 게이트(selective-invocation gate)를 단순하게 적용할 경우 고동질성 환경의 격차 절반 정도(0.71→0.83)를 회복했지만, 전역적 순이득은 없었다. 연구팀은 신뢰할 수 있는 선택적 호출이 라우터 설계가 아닌 사용 가능한 정보 자체에 의해 한계 지어진다고 분석했다. 이 결과는 에이전트와 도구의 통합 시스템을 평가할 때 에이전트가 도구 위에 판단을 더한다는 가정 자체를 재검토해야 함을 시사한다.