최상위 프런티어 AI 모델들이 기업 IT 운영 능력을 평가하는 새 벤치마크에서 모두 50%를 넘기지 못했다. 분석 기관 아티피셜 애널리시스(Artificial Analysis)와 IBM이 함께 공개한 ‘ITBench-AA’는 에이전트형 기업 IT 과제를 측정하는 새 벤치마크 시리즈의 첫 편으로, 사이트 신뢰성 엔지니어링(SRE) 작업부터 다룬다. IBM이 보유한 ITBench 데이터셋을 기반으로 약 6개월에 걸쳐 프런티어 모델 평가용으로 구현됐다.
SRE 과제는 쿠버네티스(Kubernetes) 환경의 장애 대응 능력을 평가한다. 모델과 에이전트는 실제 시스템을 진단하기 위해 로그를 읽고, 의존 관계를 추적하며, 복잡한 인프라 전반에서 근본 원인이 되는 요소를 찾아내야 한다. 단순한 질의응답이 아니라 살아 있는 시스템을 다루는 실무형 과제라는 점에서 기존 벤치마크보다 까다롭다는 평가다.
결과를 보면 클로드 오퍼스 4.7(적응형 추론·최대 노력 설정)이 47%로 가장 높았고, GPT-5.5(xhigh)가 46%, 퀀(Qwen)3.7 맥스가 42%로 뒤를 이었다. 모든 프런티어 모델이 50% 미만에 머물러, 이 벤치마크는 현재 가장 포화도가 낮은 에이전트 평가 항목 중 하나로 꼽혔다. 오픈웨이트 모델 중에서는 GLM-5.1이 40%로 선두였고, 제미나이 3.5 플래시와 사실상 동률을 이뤘으며 딥시크 V4 프로가 38%로 뒤따랐다.

특히 작업에 들인 턴(turn) 수가 모델 간 약 3배까지 차이 났지만, 긴 탐색 과정이 더 높은 정확도로 이어지지는 않았다. GPT-5.5는 과제당 평균 31턴으로 46%를 기록한 반면, 제미나이 3.1 프로 프리뷰는 평균 83턴을 쓰고도 30%에 그쳤다. 과도하게 파고드는 모델은 오히려 상위 결함 주입 메커니즘이나 동시 발생한 증상을 원인으로 잘못 짚는 경향을 보였다.
이번 결과는 AI 에이전트가 실제 기업 운영 현장에서 아직 사람을 대체하기에는 멀었음을 드러낸다. 벤치마크 점수가 화려한 모델도 복잡한 인프라 장애를 풀어내는 능력은 절반에 못 미쳤다. 평가는 향후 재무 운영(FinOps)과 최고정보보안책임자(CISO) 과제로 확장될 예정이다. 에이전트 도입을 검토하는 국내 기업으로서도, 일반 벤치마크 수치가 아니라 자사 운영 환경에 가까운 과제에서의 실제 성능을 따져야 한다는 교훈을 준다.


