자율 AI 에이전트를 평가하는 기존 벤치마크들이 ‘태스크를 완료했는가’만 측정할 뿐, ‘에이전트가 애초에 진행해야 했는가’라는 더 중요한 질문을 체계적으로 외면하고 있다는 연구 결과가 나왔다. Victor Ojewale, Suresh Venkatasubramanian 등이 arXiv에 발표한 논문 “What Benchmarks Don’t Measure: The Case for Evaluating Abstention Competence in Autonomous Agents”는 인간 피드백 목표 함수로 훈련된 에이전트들이 안전하게 행동하기 위한 입력, 증거, 권한이 부재한 상황에서도 진행하려는 구조적 경향을 갖는다고 지적하며 이를 ‘순응 편향(compliance bias)’이라 명명했다.
논문은 순응 편향이 인간 피드백 파이프라인 내의 보상 해킹에서 비롯되며, 주요 에이전트 벤치마크들이 에이전트가 멈추는 행위를 벌점으로 처리하거나 원칙 있는 중단과 무음 실패를 구조적으로 구별하지 못하기 때문에 이 문제가 고착된다고 분석했다. 이에 대응해 연구팀은 추상화가 정당화되는 세 가지 상황 분류법을 제안했다. 필요한 정보가 없는 ‘명세 격차(specification gaps)’, 세계 상태를 확인할 수 없는 ‘검증 격차(verification gaps)’, 명시적 권한이 부여되지 않은 ‘권한 격차(authority gaps)’가 그것이다.
연구팀은 이 분류법을 기반으로 안전률(Safety Rate), 사용성률(Usability Rate), 정보 기반 거부율(Informed Refusal Rate) 세 가지 추상화 평가 지표와 프로토콜도 제안했다. 144개 엔터프라이즈 에이전트 시나리오와 5개 모델 패밀리를 대상으로 한 예비 실험에서 런타임 강제 추상화 메커니즘은 위험한 행동을 최대 89.2%까지 차단하면서 권한이 부여된 시나리오에서는 87.5%의 사용성을 유지했다. 이 결과는 안전성과 사용성 간의 상충 관계가 모델 패밀리에 따라 달라지며, 고정된 것이 아닌 조정 가능한 균형점임을 시사한다.
이 연구는 자율 에이전트가 기업과 사회 인프라에 점점 더 깊이 통합되는 시점에, 현재 평가 체계가 가진 사각지대를 구체적으로 짚어낸다는 점에서 의미가 크다. 연구팀은 이번 연구를 예비 작업으로 규정하면서 분류법과 복합 지표를 출발점으로 삼아 추가 논의를 이어가자고 제안했다. AI 에이전트 안전 연구 커뮤니티에서 에이전트가 ‘무엇을 할 수 있는가’와 함께 ‘언제 하지 말아야 하는가’를 평가하는 기반을 마련하는 논의가 본격화될 것으로 보인다.














