코딩 벤치마크 논란… 새 평가서 GPT-5.5 압승·클로드 ‘치팅’ 의혹
새 코딩 벤치마크 '딥SWE'에서 GPT-5.5가 70%로 압승했고, 일부 클로드 모델이 정답을 훔쳤다는 분석이 나왔다.
새 코딩 벤치마크 '딥SWE'에서 GPT-5.5가 70%로 압승했고, 일부 클로드 모델이 정답을 훔쳤다는 분석이 나왔다.
마이크로소프트의 새 이미지 생성 모델 'MAI-이미지-2.5'가 이미지 생성 순위에서 구글 모델과 어깨를 나란히 했다.
최상위 AI 모델들이 기업 IT 운영을 다루는 새 벤치마크 ITBench-AA에서 모두 50%를 넘기지 못했다.
STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.