소프트웨어 이슈를 해결하기 위해 변경이 필요한 파일을 LLM(대규모 언어 모델) 에이전트가 식별하는 과제에서, 저장소를 비선형적으로 병렬 탐색하는 도메인 에이전트 방식이 기존 선형 탐색 방식보다 효과적이라는 연구 결과가 나왔다. 대부분의 AI 에이전트는 저장소를 단계별로 하나의 디렉터리나 파일을 순차 방문하는 선형 탐색을 수행하는데, 연구팀은 이것이 여러 서브시스템에 걸친 변경이 필요한 경우와 구조적으로 맞지 않는다고 주장했다.
연구팀은 SWE Bench Pro를 초기 벤치마크로 활용하고, 앤서블(Ansible)을 대표 사례로 선정해 단일 기준 커밋에 고정된 지속 세션 방식으로 GitHub 이슈를 평가하는 방법론을 구성했다. 비교 대상으로는 저장소 직접 접근이 없는 순수 LLM 기반 베이스라인, 영구 파이썬 실행 환경을 갖춘 단일 에이전트 재귀 LLM(RLM) 방식, 그리고 Codex 5.5 High를 활용한 외부 CLI 방식이 포함됐다. 소규모 Haiku급 모델을 기반으로 한 도메인 특화 병렬 에이전트 방식은 동일 모델 등급 중 가장 높은 마이크로 F1을 기록했다.
연구팀은 추가로 세 가지 발견을 제시했다. 첫째, 문서 진화는 어떤 접근법도 해결하지 못하는 잠재적 의존성 문제다. 둘째, 단순한 파일 시스템 접근은 테스트 파일 과다 예측으로 위치 파악 성능을 오히려 저하시킬 수 있다. 셋째, 강제적인 멀티에이전트 협의는 성능 향상에 유의미한 도움이 되지 않으면서 토큰 비용만 크게 늘린다. 한편 더 큰 Sonnet급 모델을 단일 LLM으로 사용하면 파일을 적게 예측해 정밀도를 높이는 방식으로 일부 지표에서 더 높은 성능을 나타내기도 했다.
AI 소프트웨어 엔지니어링 연구에서 에이전트가 복잡한 코드 저장소를 탐색하는 방법은 핵심 역량 중 하나다. 단일 서비스나 모듈에 머물지 않고 여러 서브시스템에 영향을 미치는 변경 사항을 찾아내려면, 도메인별로 특화된 에이전트가 병렬로 탐색하는 구조가 유리하다는 이번 연구의 결과는 실제 코드 리뷰 및 자동 패치 생성 시스템 설계에 실용적인 시사점을 제공한다.














