• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

엔터프라이즈 IT 에이전트 벤치마크, 최전선 AI 모델도 50% 벽 못 넘어

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 16시 09분
Home AI 모델·연구
Share on FacebookShare on Twitter

IBM과 Artificial Analysis가 공동 개발한 에이전틱 엔터프라이즈 IT 작업 벤치마크 ‘ITBench-AA’가 공개됐다. 이 벤치마크는 Kubernetes(쿠버네티스) 인프라 장애 진단, 즉 SRE(사이트 신뢰성 엔지니어링) 작업을 자동화 에이전트로 수행하는 능력을 측정하며, 최전선 AI 모델 전체가 정확도 50% 미만에 그쳤다. 클로드(Claude) 오퍼스 4.7이 47%로 1위를 기록했고, GPT-5.5가 46%, Qwen3.7 Max가 42%로 뒤를 이었다.

ITBench-AA의 SRE 과제는 총 59개로, 이 중 40개는 공개 태스크, 19개는 비공개 태스크다. 각 과제는 쿠버네티스 장애 스냅샷을 제공하며, 에이전트는 경보·이벤트·트레이스·메트릭·로그·앱 토폴로지 정보를 바탕으로 장애의 근본 원인을 식별해야 한다. 평가 방식은 ‘완전 재현율 조건의 평균 정밀도’로, 정확한 근본 원인을 모두 찾아야 하며 하나라도 누락하면 해당 반복 시도에서 0점이 된다. 평가 하네스인 ‘Stirrup’은 오픈소스로 공개됐으며, 모든 모델은 동일 환경에서 100회 제한·3회 반복 조건으로 테스트됐다.

Hand analyzing business graphs on a wooden desk, focusing on data results and growth analysis.
사진: Lukas Blazek / Pexels

주목할 만한 점은 에이전트의 추론 턴 수가 많다고 해서 정확도가 높아지지 않는다는 사실이다. GPT-5.5는 과제당 평균 31회 턴으로 46%를 기록한 반면, 제미나이(Gemini) 3.1 프로 프리뷰는 평균 83회 턴에 30%에 그쳤다. 과도한 조사가 실제 근본 원인이 아닌 주변 증상이나 카오스 메시 컨트롤러 같은 상위 장치를 오답으로 제출하는 ‘위양성’ 문제를 유발하기 때문이다. 오픈 가중치 모델 중에서는 GLM-5.1이 40%로 선두를 달렸으며, 과제당 비용이 0.14달러인 Gemma 4 31B가 37%로 2.23달러짜리 제미나이 3.1 프로(30%)보다 점수와 비용 모두 앞섰다.

IBM의 ITBench 데이터셋을 기반으로 구축된 이 벤치마크는 향후 FinOps(재무 운영)·CISO(정보보안 최고책임자) 작업으로 평가 영역을 확장할 예정이다. 현재 SRE 분야만으로도 기존 주요 에이전틱 벤치마크 대비 포화도가 낮은 편으로, AI 에이전트가 실제 엔터프라이즈 IT 환경을 자율 운영하기까지 아직 상당한 기술 격차가 존재함을 보여준다. 리더보드는 Artificial Analysis 사이트에서 공개 확인할 수 있다.

Tags: ClaudeIBMITBench-AAKubernetes벤치마크에이전튱AI
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Close-up of hands typing on a laptop displaying cybersecurity graphics, illuminated by purple light.

ChatGPT·Claude 공유 채팅 악용한 'LLMShare' 악성코드 유포 공격 등장

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist IBM IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

AI 멀티모달 모델 추상 흑백 다이어그램 — 멀티-LoRA 학습 아키텍처

Trajectory, 멀티-LoRA 연속학습 스택 SkyRL 오픈소스 공개… 실험 처리량 2.81배

2026년 06월 01일 19시 24분
파란색 음파 파형 — AI 음성 인식 처리

Together AI, 세계 최고속 STT 스택 공개… 20시간 음성을 10초 이내 처리

2026년 06월 01일 18시 48분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.