하얼빈공업대학과 샤오훙수(Xiaohongshu) 공동 연구팀이 GPT-5.4, 제미나이(Gemini) 3.1 Pro, 클로드(Claude) Sonnet 4.6, 딥시크(DeepSeek)-V4-Pro, 키미(Kimi)-K2.6 등 주요 프런티어 AI 검색 에이전트들이 실제로 웹을 탐색하는 대신 훈련 과정에서 학습한 기존 지식에 의존해 질문에 답하는 경향이 있음을 확인했다. 연구팀은 이 현상을 ‘내재적 지식 의존성'(IKD, Intrinsic Knowledge Dependence)으로 명명하고, 현재 주류 벤치마크가 모델의 실제 검색 능력을 과대평가하고 있다고 지적했다.
연구팀은 총 11개 모델을 대상으로 인터넷 접속 도구를 모두 제거한 상태에서 BrowseComp 벤치마크를 실행했다. 이 벤치마크는 여러 웹 페이지를 단계적으로 탐색해야만 답을 찾을 수 있는 복잡한 질문들로 구성된다. 도구 없이도 MiniMax M2.5는 문제의 44.5%를, 중국어 버전인 BrowseComp-ZH에서는 키미 K2.6이 62%를 기억만으로 풀어냈다. 더 주목할 만한 결과는 두 번째 실험에서 나왔다. 검색 도구는 열어두되 정답을 뒷받침하는 문서를 검색 인덱스에서 모두 제거하자, 모든 모델의 성능이 도구 없이 기억에만 의존했을 때보다 오히려 낮아졌다. MiniMax M2.5는 44.5%에서 8.0%로, 키미 K2.6은 25.5%에서 2.3%로 급락했다. 검색 도구가 정답으로 향하는 직관을 오히려 방해한 것이다.

검색 경로를 분석한 결과, 에이전트가 생성하는 검색 쿼리 중 절반 이상이 이전 검색 결과가 아닌 모델 자체의 추론에서 비롯됐고, 관련 증거가 검색 결과에 나타나더라도 에이전트가 이를 추론에 반영하는 비율은 30%에 채 미치지 못했다. 연구팀은 이 결과를 바탕으로 모델이 훈련 데이터 범위 밖의 정보를 실제로 탐색하는 능력을 측정하기 위해 새 벤치마크 ‘LiveBrowseComp’를 개발했다. LiveBrowseComp는 생성 시점 기준 최근 90일 이내의 사실에 근거해야만 답할 수 있는 사람이 직접 작성한 질문 335개로 구성되며, 영화 데이터베이스·보안 취약점 레지스터·지진 기록 등 지속적으로 갱신되는 출처를 활용한다. 국제적으로 널리 알려진 사건은 의도적으로 제외해 모델 파라미터에 스며들었을 가능성을 차단했다.
LiveBrowseComp에서 전체 모델은 도구 없이 응답 정확도 2% 미만을 기록했고, 도구를 사용하더라도 기존 BrowseComp 점수보다 25~40%p 낮은 성적을 냈다. 순위도 달라졌다. BrowseComp에서 오픈소스 모델 1위였던 GLM 5.1은 중간권으로 밀렸고, 최하위에 가까웠던 딥시크 v3.2가 순위 최상단으로 올라 여러 모델을 제쳤다. 반면 BrowseComp에서 난이도를 높였을 때 에이전트는 질문당 단계 수가 크게 증가해 기억에 의존하지 않는 실질적 탐색이 이루어지고 있음을 보였다. 연구팀은 동적·시간 민감형 벤치마크를 AI 에이전트 평가 표준으로 삼아야 하며, 추측 후 검증 방식 대신 증거 기반 탐색에 보상을 주는 훈련 신호가 필요하다고 권고했다.


