상하이 교통대학을 포함한 국제 공동 연구팀이 AI 코딩 에이전트의 버그 수정 능력을 코드 탐색 단계와 패치 생성 단계로 분리해 평가하는 벤치마크 SWE-Explore를 발표했다. 기존 SWE-bench 계열 벤치마크가 최종 수정 결과만 측정하는 것과 달리, 이 연구는 에이전트가 실제로 어떤 파일과 코드 줄을 참조했는지를 10개 프로그래밍 언어의 203개 오픈소스 프로젝트에서 848개 문제를 대상으로 분석했다.
결과는 뚜렷한 격차를 드러냈다. 파일 수준에서 에이전트들은 관련 소스 파일을 비교적 잘 찾아냈지만, 분석이 개별 코드 라인 단계로 내려가자 일반 목적 코딩 에이전트들의 핵심 라인 커버리지는 14~19%에 불과했다. Claude Code, Codex, OpenHands 등 다양한 에이전트와 여섯 가지 서로 다른 언어 모델 조합을 실험했음에도 이 패턴은 일관되게 유지됐다. 더 강력한 언어 모델로 교체해도 라인 수준 정밀도는 크게 개선되지 않았다. 반면 코드를 상호 연결된 구성 요소 네트워크로 분석하는 특화 시스템 CoSIL은 뚜렷하게 높은 라인 커버리지를 달성했다.

연구팀은 제어 실험을 통해 핵심 코드 영역 가시성과 버그 수정 성공률 사이에 임계값 효과가 존재함을 확인했다. 난이도가 낮은 과제에서 핵심 영역의 50% 미만이 노출되면 수정 대부분이 실패했지만, 50~75% 구간에서 성공률이 급격히 상승했다. 또한 관련 없는 코드가 추가 노출돼도 성능에 거의 영향이 없어, 에이전트가 적게 읽는 것보다 충분히 읽는 편이 낫다는 결론을 내렸다. 이 연구는 AI 코딩 에이전트 개선의 초점을 탐색 필터링보다 라인 수준 정밀도 향상에 맞춰야 함을 시사한다.
SWE-bench가 2년 전 공개된 이후 AI 코딩 에이전트 평가 생태계가 빠르게 발전했지만, 자동 평가 시스템이 수용한 결과물의 절반가량을 실제 프로젝트 관리자는 거부할 것이라는 별도 연구 결과도 있다. SWE-Explore의 데이터셋과 코드는 GitHub 및 Hugging Face에 공개됐다.














