코딩 에이전트 공정 비교 벤치마크 Claw-SWE-Bench 공개

범용 에이전트가 자율적인 도구 사용자로 점점 더 많이 활용되고 있지만, 이들의 코딩 능력을 기존 SWE-bench로 측정하는 데는 구조적 어려움이 있다. 범용 에이전트는 점수 산정에 필요한 깔끔한 도커 작업 공간, 패치, 예측 계약 조건을 자체적으로 충족하지 못하기 때문이다. 연구팀은 이 문제를 해결하기 위해 이질적인 에이전트 하네스를 공정하게 비교할 수 있는 다국어 벤치마크 Claw-SWE-Bench와 어댑터 프로토콜을 발표했다.

Claw-SWE-Bench는 8개 언어, 43개 저장소에서 수집한 350개의 깃허브 이슈 해결 인스턴스로 구성된다. 미래 커밋 정리 작업을 거쳐 SWE-bench-Multilingual과 SWE-bench-Verified-Mini에서 추출했으며, 고정된 프롬프트, 실행 시간 예산, 작업 공간 계약, 패치 추출 절차, 평가자라는 동일 조건 아래 하네스 간 비교가 가능하도록 설계됐다. 또한 비용을 고려한 순위 인식 절차로 80개 인스턴스를 선별한 Claw-SWE-Bench Lite도 함께 공개해 빠른 검증에 활용할 수 있도록 했다.

전체 벤치마크 실험에서 최소 직접 차이 어댑터를 사용한 OpenClaw는 Pass@1 19.1%에 그쳤지만, 동일한 GLM 5.1 백본에서 전체 어댑터를 사용하면 73.4%까지 올라갔다. 이는 어댑터 설계가 에이전트 하네스의 코딩 성능에 결정적이라는 사실을 보여준다. 또한 동일 정확도의 시스템도 총 API 비용에서 큰 차이를 보일 수 있다는 점도 확인됐다. Claw-SWE-Bench는 하네스와 비용 회계를 SWE 스타일 코딩 에이전트 평가의 핵심 축으로 다루며, 데이터는 깃허브와 허깅페이스에서 공개됐다.