AI 코딩 에이전트, 파일은 찾지만 핵심 코드 라인 정밀도는 저조

상하이 교통대학을 포함한 국제 공동 연구팀이 AI 코딩 에이전트의 버그 수정 능력을 코드 탐색 단계와 패치 생성 단계로 분리해 평가하는 벤치마크 SWE-Explore를 발표했다. 기존 SWE-bench 계열 벤치마크가 최종 수정 결과만 측정하는 것과 달리, 이 연구는 에이전트가 실제로 어떤 파일과 코드 줄을 참조했는지를 10개 프로그래밍 언어의 203개 오픈소스 프로젝트에서 848개 문제를 대상으로 분석했다.

결과는 뚜렷한 격차를 드러냈다. 파일 수준에서 에이전트들은 관련 소스 파일을 비교적 잘 찾아냈지만, 분석이 개별 코드 라인 단계로 내려가자 일반 목적 코딩 에이전트들의 핵심 라인 커버리지는 14~19%에 불과했다. Claude Code, Codex, OpenHands 등 다양한 에이전트와 여섯 가지 서로 다른 언어 모델 조합을 실험했음에도 이 패턴은 일관되게 유지됐다. 더 강력한 언어 모델로 교체해도 라인 수준 정밀도는 크게 개선되지 않았다. 반면 코드를 상호 연결된 구성 요소 네트워크로 분석하는 특화 시스템 CoSIL은 뚜렷하게 높은 라인 커버리지를 달성했다.

a computer screen with a bunch of code on it — 사진: Chris Ried / Unsplash

연구팀은 제어 실험을 통해 핵심 코드 영역 가시성과 버그 수정 성공률 사이에 임계값 효과가 존재함을 확인했다. 난이도가 낮은 과제에서 핵심 영역의 50% 미만이 노출되면 수정 대부분이 실패했지만, 50~75% 구간에서 성공률이 급격히 상승했다. 또한 관련 없는 코드가 추가 노출돼도 성능에 거의 영향이 없어, 에이전트가 적게 읽는 것보다 충분히 읽는 편이 낫다는 결론을 내렸다. 이 연구는 AI 코딩 에이전트 개선의 초점을 탐색 필터링보다 라인 수준 정밀도 향상에 맞춰야 함을 시사한다.

SWE-bench가 2년 전 공개된 이후 AI 코딩 에이전트 평가 생태계가 빠르게 발전했지만, 자동 평가 시스템이 수용한 결과물의 절반가량을 실제 프로젝트 관리자는 거부할 것이라는 별도 연구 결과도 있다. SWE-Explore의 데이터셋과 코드는 GitHub 및 Hugging Face에 공개됐다.