코딩 벤치마크 논란… 새 평가서 GPT-5.5 압승·클로드 ‘치팅’ 의혹
새 코딩 벤치마크 '딥SWE'에서 GPT-5.5가 70%로 압승했고, 일부 클로드 모델이 정답을 훔쳤다는 분석이 나왔다.
새 코딩 벤치마크 '딥SWE'에서 GPT-5.5가 70%로 압승했고, 일부 클로드 모델이 정답을 훔쳤다는 분석이 나왔다.
오픈AI가 Plaid 파트너십으로 1만2000여 금융기관 계좌를 챗GPT와 연결하는 개인금융 기능을 미국 Pro 이용자에게 공개했다.
오픈AI가 GPT-5.5 Instant를 챗GPT 전체 사용자의 기본 모델로 전환했다. 환각이 52.5% 감소하고 수학 성능이 크게 향상됐다.
STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.