개인용 AI 에이전트를 현실적인 컴퓨팅 환경에서 자동으로 벤치마크하는 프레임워크 ‘STAGE-Claw’가 공개됐다. 2026년 6월 9일 arXiv에 등록된 이 연구는 기존 에이전트 평가가 샌드박스 환경, 정적 태스크 설계, 거친 점수 체계에 의존해 확장성과 신뢰성에 한계가 있다는 문제의식에서 출발했다. LLM(대규모 언어 모델) 기반 에이전트가 일상 애플리케이션에 빠르게 통합되는 가운데, 실제 운영 환경에서의 성능을 공정하게 비교하는 표준화된 평가 체계의 부재가 업계의 과제로 떠오르고 있다.
STAGE-Claw는 태스크 힌트가 주어지면 현실적인 벤치마크 태스크와 그에 맞는 환경·프롬프트·정답·검증 프로그램을 자동으로 생성하고 검증한다. 에이전트는 실제 운영 환경에서 평가받으며, 성능은 텍스트 응답이 아닌 최종 시스템 상태의 정확성으로 측정한다. 텍스트 응답 기반 점수는 에이전트가 실제로 원하는 작업을 완료했는지를 반영하지 못하는 경우가 많다는 점에서, 상태 기반 측정은 평가 신뢰성을 높이는 핵심 설계 선택이다.

연구팀은 이 프레임워크를 활용해 40개의 난도 높은 실제 시나리오 에이전트 태스크로 구성된 벤치마크를 제작하고, 최전선 모델 11종을 대상으로 태스크 점수·비용·도구 호출 신뢰성·공통 실패 패턴을 분석했다. 다수의 최신 모델을 동일한 조건에서 비교한 이 실험은 개인 에이전트 성능의 현주소를 드러내는 동시에, 어떤 유형의 태스크에서 모델들이 공통적으로 실패하는지를 체계적으로 파악할 수 있는 단서를 제공한다.
연구팀은 STAGE-Claw가 개인 에이전트 평가를 위한 확장 가능하고 상태 기반의 현실적 방법론을 제공한다고 밝혔다. 에이전트 벤치마크 자동 생성 능력은 태스크 다양성을 지속적으로 확보하게 해 평가 세트 포화 문제를 완화하며, 새로운 모델이 등장할 때마다 공정한 비교 기반을 유지할 수 있게 한다는 점에서 연구 인프라로서의 활용 가능성도 크다.














