AI 검색 에이전트들이 실제로 인터넷을 탐색해 정보를 수집하는 대신, 사전 학습 단계에서 이미 습득한 지식을 꺼내 답을 검증하는 데 그치고 있다는 연구 결과가 나왔다. 하얼빈공과대학(Harbin Institute of Technology)과 중국 소셜 플랫폼 샤오훙수(Xiaohongshu) 연구진이 2026년 5월 27일 arXiv(2605.28721)에 발표한 논문 ‘LiveBrowseComp’에 따르면, GPT-5.4·클로드 소넷 4.6(Claude Sonnet 4.6)·Kimi K2.6을 포함한 11종의 LLM(대규모 언어 모델) 기반 검색 에이전트를 분석한 결과, 검색 도구에 접근할 수 있을 때도 에이전트가 외부 증거보다 내부 지식에 의존하는 ‘내재적 지식 의존(IKD, Intrinsic Knowledge Dependence)’ 현상이 광범위하게 관측됐다.
연구진은 기존 벤치마크인 BrowseComp를 활용해 에이전트에게 검색 도구를 제공하지 않은 상태에서 질문에 답하도록 했다. 그 결과 일부 모델은 도구 없이도 최대 44.5%의 정확도를 기록했으며, 에이전트가 생성하는 검색 쿼리 중 상당수가 실제로 웹에서 찾아낸 단서가 아니라 모델 내부에서 생성된 가설에서 비롯된 것으로 확인됐다. 중국어 기반 BrowseComp-ZH 변형 실험에서는 Kimi K2.6이 검색 없이 62%의 정확도를 기록하기도 했다. 이는 정적인 검색 벤치마크가 에이전트의 실제 정보 발견 능력이 아닌, 기억에 기댄 검증 능력을 측정할 수 있다는 한계를 드러낸다.

연구진은 이 문제를 검증하기 위해 새로운 벤치마크 ‘LiveBrowseComp’를 개발했다. 이 벤치마크는 구축 시점 기준으로 90일 이내에 공개된 신규 사실에 답이 의존하는 인간 작성 질문 335개로 구성돼, 에이전트가 학습 데이터를 통해 미리 알 수 없는 정보를 요구한다. LiveBrowseComp에서 평가된 전 모델의 비보조(closed-book) 정확도는 2% 미만으로 급락했으며, 검색 도구를 사용했을 때조차 BrowseComp 대비 25~40점 낮은 점수를 기록했다. 기존 BrowseComp에서 유지되던 모델 간 성능 순위도 LiveBrowseComp에서는 더 이상 재현되지 않았다.
이 연구는 AI 검색·RAG(검색 증강 생성) 시스템을 도입한 기업과 개발자에게 직접적인 경고를 제기한다. 에이전트가 실제로 웹을 검색하고 있는지, 아니면 학습 당시의 지식을 재활용해 검증만 수행하는지를 별도로 평가하지 않으면 시스템의 실시간 정보 처리 능력이 과대평가될 수 있다는 것이다. 연구진은 LiveBrowseComp를 공개 배포해 향후 연구와 모델 평가에 활용할 수 있도록 했다.


