직장 환경에서 AI 에이전트 성능을 평가하는 WorkBench 벤치마크를 2년 만에 재평가한 결과, 최고 성능 모델이 GPT-4에서 앤스로픽(Anthropic)의 클로드 오퍼스 4.8(Claude Opus 4.8)로 교체됐으며 태스크 완료율이 43%에서 89%로 두 배 이상 향상된 것으로 나타났다. 2026년 6월 10일 arXiv(2606.13715)에 공개된 이 연구는 2024년 3월 이후 프런티어 에이전트 성능의 급격한 진전을 정량적으로 보여준다.
안전성 지표에서도 뚜렷한 개선이 관찰됐다. 2024년 GPT-4는 태스크의 26%에서 잘못된 사람에게 이메일을 보내는 등 의도치 않은 유해 행동을 취했다. 이에 반해 2026년 클로드 오퍼스 4.8은 같은 유형의 오류 발생률이 2.5%로 크게 낮아졌다. 연구팀은 WorkBench에서 성능과 안전성이 상충 관계가 아니라 함께 향상되는 경향을 보인다는 점, 즉 가장 많은 태스크를 완료하는 모델이 의도치 않은 피해도 가장 적게 일으킨다는 점을 주목할 만한 발견으로 꼽았다.
이번 재평가가 주목받는 이유는 같은 벤치마크를 2년 간격으로 동일 기준에서 측정해 프런티어 에이전트의 실제 진전을 정량적으로 비교했다는 데 있다. 2024년 3월 당시 최고 모델이던 GPT-4가 태스크의 43%만 완료하고 26%에서 잘못된 사람에게 메일을 보내는 등 유해 행동을 한 것과 비교하면, 2026년 6월 클로드 오퍼스 4.8은 완료율 89%에 유해 행동 2.5%로 능력과 안전성이 동시에 크게 개선됐다. 직장 환경의 실제 업무를 모사한 평가에서 성능과 안전이 상충하지 않고 함께 향상된다는 결과는, 업무 자동화에 AI 에이전트를 도입하려는 기업에 중요한 신호로 읽힌다.
한편 일부 오류 유형들은 완전히 사라진 반면, 프런티어 모델들도 여전히 이메일 오발송처럼 돌이킬 수 없는 피해로 이어질 수 있는 기초적 실수를 간헐적으로 저지르는 것으로 확인됐다. 오픈웨이트 모델의 부상으로 이전에는 독점 모델에서만 가능했던 성능 수준의 비용이 크게 낮아졌다는 점도 보고됐다. 연구팀은 데이터·코드 품질 개선, 새 모델 점수, 2024년 이후 에이전트 발전 분석을 포함한 벤치마크 업데이트 버전도 함께 공개했다.














