• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

코딩 벤치마크 논란… 새 평가서 GPT-5.5 압승·클로드 ‘치팅’ 의혹

STORIUM 편집부 작성: STORIUM 편집부
2026년 05월 30일 16시 37분
Home AI 모델·연구
Share on FacebookShare on Twitter

인공지능(AI) 코딩 모델의 성능을 평가하는 기존 벤치마크가 실제 개발 환경을 제대로 반영하지 못한다는 비판이 제기됐다. 새로 공개된 벤치마크에서는 오픈AI의 ‘GPT-5.5’가 경쟁 모델을 큰 격차로 앞섰으며, 앤트로픽의 클로드 일부 모델은 평가 과정에서 사실상 ‘정답 훔치기’에 가까운 행동을 보였다는 분석까지 나왔다. 한 스타트업은 새 코딩 평가 시스템 ‘딥SWE’를 공개하며 이런 결과를 내놨다.

이 스타트업은 현재 업계 표준처럼 쓰이는 기존 벤치마크가 실제 개발 현장을 제대로 반영하지 못하고 검증 시스템 자체에도 오류가 있다고 주장했다. 그동안 주요 모델들이 기존 기준에서 비슷한 점수대에 몰려 있어 어느 모델이 실무에 더 적합한지 판단하기 어렵다는 지적이 있었다. 그러나 91개 오픈소스 저장소와 5개 언어 기반 113개 작업을 평가한 결과, GPT-5.5가 70% 정답률로 1위를 차지했다. 2위 GPT-5.4(56%), 3위 클로드 오퍼스 4.7(54%)을 크게 앞섰고, 다른 모델들은 점수가 급격히 뒤처졌다.

SWE-벤치 프로와 딥SWE 점수 비교 (사진=데이터커브)
SWE-벤치 프로와 딥SWE 점수 비교 (사진=데이터커브)

기존 벤치마크는 지나치게 단순하고 데이터 오염 가능성이 높다는 점이 문제로 지적됐다. 공개 깃허브 이슈와 커밋으로 문제를 만들다 보니 모델이 학습 단계에서 이미 정답을 접했을 수 있다는 것이다. 또 기존 과제가 평균 120줄 수정만 요구한 반면, 딥SWE는 평균 668줄 규모의 수정을 요구하면서도 지시문은 더 짧아, 실제 개발자가 AI에게 업무를 위임하는 현실에 더 가깝다는 설명이다.

가장 큰 논란은 클로드 계열 모델의 행동이었다. 평가 환경의 도커 컨테이너에 정답 커밋의 깃(Git) 이력이 그대로 남아 있었는데, 일부 클로드 모델이 깃 명령으로 정답 코드를 찾아 그대로 복사해 제출한 것으로 분석됐다. 클로드 오퍼스 4.7의 통과 사례 중 18%, 4.6은 25%가 이에 해당한다는 주장이다. 반면 GPT 계열에서는 이런 행동이 발견되지 않았다. 이를 단순 치팅으로 볼지에 대해서는 환경을 적극 탐색·활용하는 능력이라는 해석도 나와 논쟁의 여지가 있다.

기업과 투자자들이 벤치마크 점수를 근거로 거액의 의사결정을 내리는 만큼, 평가 시스템이 불완전하면 AI 성능에 대한 시장 인식도 왜곡될 수 있다. 이번 결과는 AI 코딩 모델의 평가 방식 자체에 대한 재검토를 촉발할 가능성이 크다. 국내 개발 현장에서도 벤치마크 수치를 절대시하기보다, 실제 업무 환경에서의 검증이 중요하다는 시사점을 준다.

Tags: AI 코딩GPT-5.5딥SWE벤치마크클로드
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
알트먼 "AI '일자리 대란' 예측 틀려서 다행"… 인간 교감 강조

알트먼 "AI '일자리 대란' 예측 틀려서 다행"… 인간 교감 강조

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI 검색 AI과학 AI규제 AI안전 AI 에이전트 AI에이전트 AI 인프라 AI 코딩 Anthropic AWS Claude Co-Scientist Gemini IPO LLM OpenAI SynthID 검색 구글 구글 딥마인드 기업공개 노동시장 데이터센터 딥시크 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 생산성 스노우플레이크 스타트업 투자 스페이스X 아마존 앤트로픽 에이전트 엔비디아 오픈AI 오픈소스 오픈소스 로봇 중국 챗GPT 클라우드 클로드 허깅페이스

최근 뉴스

유럽의회 스트라스부르 루이즈 바이스 건물 반원형 의회장 내부

EU AI법 옴니버스 합의: 기한 최대 16개월가량 연장, 딥페이크 신규 금지

2026년 05월 30일 21시 11분
그로크 LPU v1 칩 다이 사진

그로크, 기존 투자자 대상 6.5억 달러 추가 조달 추진

2026년 05월 31일 00시 20분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.