• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

프런티어 모델, 기업 IT 운영 벤치마크서 50% 미달… ‘ITBench-AA’ 공개

STORIUM 편집부 작성: STORIUM 편집부
2026년 05월 30일 17시 44분
Home AI 모델·연구
Share on FacebookShare on Twitter

최상위 프런티어 AI 모델들이 기업 IT 운영 능력을 평가하는 새 벤치마크에서 모두 50%를 넘기지 못했다. 분석 기관 아티피셜 애널리시스(Artificial Analysis)와 IBM이 함께 공개한 ‘ITBench-AA’는 에이전트형 기업 IT 과제를 측정하는 새 벤치마크 시리즈의 첫 편으로, 사이트 신뢰성 엔지니어링(SRE) 작업부터 다룬다. IBM이 보유한 ITBench 데이터셋을 기반으로 약 6개월에 걸쳐 프런티어 모델 평가용으로 구현됐다.

SRE 과제는 쿠버네티스(Kubernetes) 환경의 장애 대응 능력을 평가한다. 모델과 에이전트는 실제 시스템을 진단하기 위해 로그를 읽고, 의존 관계를 추적하며, 복잡한 인프라 전반에서 근본 원인이 되는 요소를 찾아내야 한다. 단순한 질의응답이 아니라 살아 있는 시스템을 다루는 실무형 과제라는 점에서 기존 벤치마크보다 까다롭다는 평가다.

결과를 보면 클로드 오퍼스 4.7(적응형 추론·최대 노력 설정)이 47%로 가장 높았고, GPT-5.5(xhigh)가 46%, 퀀(Qwen)3.7 맥스가 42%로 뒤를 이었다. 모든 프런티어 모델이 50% 미만에 머물러, 이 벤치마크는 현재 가장 포화도가 낮은 에이전트 평가 항목 중 하나로 꼽혔다. 오픈웨이트 모델 중에서는 GLM-5.1이 40%로 선두였고, 제미나이 3.5 플래시와 사실상 동률을 이뤘으며 딥시크 V4 프로가 38%로 뒤따랐다.

서버룸 네트워크
출처: ProjectManhattan / Wikimedia Commons / CC BY-SA 3.0

특히 작업에 들인 턴(turn) 수가 모델 간 약 3배까지 차이 났지만, 긴 탐색 과정이 더 높은 정확도로 이어지지는 않았다. GPT-5.5는 과제당 평균 31턴으로 46%를 기록한 반면, 제미나이 3.1 프로 프리뷰는 평균 83턴을 쓰고도 30%에 그쳤다. 과도하게 파고드는 모델은 오히려 상위 결함 주입 메커니즘이나 동시 발생한 증상을 원인으로 잘못 짚는 경향을 보였다.

이번 결과는 AI 에이전트가 실제 기업 운영 현장에서 아직 사람을 대체하기에는 멀었음을 드러낸다. 벤치마크 점수가 화려한 모델도 복잡한 인프라 장애를 풀어내는 능력은 절반에 못 미쳤다. 평가는 향후 재무 운영(FinOps)과 최고정보보안책임자(CISO) 과제로 확장될 예정이다. 에이전트 도입을 검토하는 국내 기업으로서도, 일반 벤치마크 수치가 아니라 자사 운영 환경에 가까운 과제에서의 실제 성능을 따져야 한다는 교훈을 준다.

Tags: ITBench-AASRE벤치마크에이전트 평가쿠버네티스
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
메타, '청소년 SNS 중독' 소송 못 피한다… 미 대법원 상고 기각

메타, '청소년 SNS 중독' 소송 못 피한다… 미 대법원 상고 기각

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI 검색 AI과학 AI규제 AI안전 AI 에이전트 AI에이전트 AI 인프라 AI 코딩 Anthropic AWS Claude Co-Scientist Gemini IPO LLM OpenAI SynthID 검색 구글 구글 딥마인드 기업공개 노동시장 데이터센터 딥시크 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 생산성 스노우플레이크 스타트업 투자 스페이스X 아마존 앤트로픽 에이전트 엔비디아 오픈AI 오픈소스 오픈소스 로봇 중국 챗GPT 클라우드 클로드 허깅페이스

최근 뉴스

유럽의회 스트라스부르 루이즈 바이스 건물 반원형 의회장 내부

EU AI법 옴니버스 합의: 기한 최대 16개월가량 연장, 딥페이크 신규 금지

2026년 05월 30일 21시 11분
그로크 LPU v1 칩 다이 사진

그로크, 기존 투자자 대상 6.5억 달러 추가 조달 추진

2026년 05월 31일 00시 20분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.