DR-DCI: 검색기 연동 작업공간 확장으로 대규모 코퍼스 직접 조작 한계 극복

대규모 언어 모델(LLM) 기반 에이전트가 방대한 문서 집합을 탐색할 때 기존 검색기 매개 방식은 순위화된 결과나 제한된 문서 뷰만 노출해 에이전트가 문서 간 제약을 검증하거나 자료를 재구성하는 데 한계가 있었다. 직접 코퍼스 상호작용(DCI, Direct Corpus Interaction)은 셸 실행 가능한 코퍼스 연산을 직접 노출해 이 한계를 완화하지만, 코퍼스 규모가 커지면 전체 코퍼스 대상 터미널 명령이 느려지고 불안정해지는 문제가 있었다.

이번 논문이 제안하는 DR-DCI는 검색기를 에이전트가 호출 가능한 액션으로 통합해 로컬 작업공간을 동적으로 확장하는 프레임워크다. 에이전트는 전체 코퍼스에 직접 명령을 내리는 대신 관련 문서를 작업공간으로 가져온 뒤 그 안에서 DCI 연산을 수행한다. 이 설계는 검색기 수준의 재현율과 DCI 방식의 정밀도를 함께 확보한다고 연구진은 밝혔다. Browsecomp-Plus 벤치마크에서 DR-DCI는 71.2% 정확도를 기록했으며, 작업공간 보존 컨텍스트 리셋 적용 시 73.3%까지 향상됐다. 또한 원본 DCI 및 비교 변형 대비 최대 8.3포인트 개선을 보이면서 도구 사용량, 실행 시간, 추정 비용도 함께 감소했다.

코퍼스 규모 확장 실험에서 DR-DCI는 10만 건에서 1000만 건 문서 규모까지 안정적인 성능을 유지했다. 원본 DCI는 대규모에서 불안정해지고 BM25는 성능이 크게 떨어졌다. 또한 2000만 건 규모의 Wiki-18 QA 환경에서 6개 벤치마크 평균 63.0을 달성해 검색 기반 및 학습된 검색 에이전트 기준선을 앞섰다. 제거 분석 결과 순위화된 미리보기와 문서 간 DCI 연산이 성능의 핵심 요인이었다.

DR-DCI는 에이전트가 기업 문서·법률 데이터베이스·과학 문헌처럼 수백만 건 규모의 비정형 코퍼스를 자율적으로 탐색하고 검증해야 하는 실용 시나리오에 직접 적용 가능하다. 검색기와 직접 조작을 결합한 이 접근법은 에이전트 기반 정보 검색 파이프라인 설계에 실질적인 설계 지침을 제공한다.