• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

AI 검색 에이전트, 실제 웹 탐색 대신 기존 학습 지식에 의존

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 15시 33분
Home AI 모델·연구
Share on FacebookShare on Twitter

하얼빈공업대학과 샤오훙수(Xiaohongshu) 공동 연구팀이 GPT-5.4, 제미나이(Gemini) 3.1 Pro, 클로드(Claude) Sonnet 4.6, 딥시크(DeepSeek)-V4-Pro, 키미(Kimi)-K2.6 등 주요 프런티어 AI 검색 에이전트들이 실제로 웹을 탐색하는 대신 훈련 과정에서 학습한 기존 지식에 의존해 질문에 답하는 경향이 있음을 확인했다. 연구팀은 이 현상을 ‘내재적 지식 의존성'(IKD, Intrinsic Knowledge Dependence)으로 명명하고, 현재 주류 벤치마크가 모델의 실제 검색 능력을 과대평가하고 있다고 지적했다.

연구팀은 총 11개 모델을 대상으로 인터넷 접속 도구를 모두 제거한 상태에서 BrowseComp 벤치마크를 실행했다. 이 벤치마크는 여러 웹 페이지를 단계적으로 탐색해야만 답을 찾을 수 있는 복잡한 질문들로 구성된다. 도구 없이도 MiniMax M2.5는 문제의 44.5%를, 중국어 버전인 BrowseComp-ZH에서는 키미 K2.6이 62%를 기억만으로 풀어냈다. 더 주목할 만한 결과는 두 번째 실험에서 나왔다. 검색 도구는 열어두되 정답을 뒷받침하는 문서를 검색 인덱스에서 모두 제거하자, 모든 모델의 성능이 도구 없이 기억에만 의존했을 때보다 오히려 낮아졌다. MiniMax M2.5는 44.5%에서 8.0%로, 키미 K2.6은 25.5%에서 2.3%로 급락했다. 검색 도구가 정답으로 향하는 직관을 오히려 방해한 것이다.

Abstract digital visualization of AI, featuring colorful 3D elements and modern design.
사진: Google DeepMind / Pexels

검색 경로를 분석한 결과, 에이전트가 생성하는 검색 쿼리 중 절반 이상이 이전 검색 결과가 아닌 모델 자체의 추론에서 비롯됐고, 관련 증거가 검색 결과에 나타나더라도 에이전트가 이를 추론에 반영하는 비율은 30%에 채 미치지 못했다. 연구팀은 이 결과를 바탕으로 모델이 훈련 데이터 범위 밖의 정보를 실제로 탐색하는 능력을 측정하기 위해 새 벤치마크 ‘LiveBrowseComp’를 개발했다. LiveBrowseComp는 생성 시점 기준 최근 90일 이내의 사실에 근거해야만 답할 수 있는 사람이 직접 작성한 질문 335개로 구성되며, 영화 데이터베이스·보안 취약점 레지스터·지진 기록 등 지속적으로 갱신되는 출처를 활용한다. 국제적으로 널리 알려진 사건은 의도적으로 제외해 모델 파라미터에 스며들었을 가능성을 차단했다.

LiveBrowseComp에서 전체 모델은 도구 없이 응답 정확도 2% 미만을 기록했고, 도구를 사용하더라도 기존 BrowseComp 점수보다 25~40%p 낮은 성적을 냈다. 순위도 달라졌다. BrowseComp에서 오픈소스 모델 1위였던 GLM 5.1은 중간권으로 밀렸고, 최하위에 가까웠던 딥시크 v3.2가 순위 최상단으로 올라 여러 모델을 제쳤다. 반면 BrowseComp에서 난이도를 높였을 때 에이전트는 질문당 단계 수가 크게 증가해 기억에 의존하지 않는 실질적 탐색이 이루어지고 있음을 보였다. 연구팀은 동적·시간 민감형 벤치마크를 AI 에이전트 평가 표준으로 삼아야 하며, 추측 후 검증 방식 대신 증거 기반 탐색에 보상을 주는 훈련 신호가 필요하다고 권고했다.

Tags: AI검색에이전트BrowseCompGPT-5LLM검색AI벤치마크
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Laptop displaying a security lock icon on a table with a potted plant and clock.

Arm, AI 보안 프레임워크 Metis 오픈소스 공개… 기존 SAST 대비 정탐률 10배

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI과학 AI규제 AI보안 AI안전 AI 에이전트 AI에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist IBM IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 기업공개 데이터센터 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 사이버보안 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 중국 클라우드 클로드 허깅페이스

최근 뉴스

NVIDIA가 클라우드에서 차량까지 AI 에이전트를 구축하는 차량 내 AI 시스템 아키텍처 가이드를 공개했다.

NVIDIA, 클라우드-차량 연결 차량 내 AI 에이전트 구축 아키텍처 공개

2026년 06월 01일 17시 14분
NVIDIA Dynamo Snapshot이 Kubernetes 환경에서 LLM 추론 워크로드의 빠른 시작을 지원하며 인퍼런스 인프라 배포 속도를 높인다.

NVIDIA, 쿠버네티스 LLM 추론 콜드스타트 단축하는 Dynamo Snapshot 공개

2026년 06월 01일 17시 09분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.