• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

AI 검색 에이전트, 웹 검색보다 학습 지식에 의존… arXiv 논문 경고

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 01일 11시 36분
Home AI 모델·연구
Share on FacebookShare on Twitter

AI 검색 에이전트들이 실제로 인터넷을 탐색해 정보를 수집하는 대신, 사전 학습 단계에서 이미 습득한 지식을 꺼내 답을 검증하는 데 그치고 있다는 연구 결과가 나왔다. 하얼빈공과대학(Harbin Institute of Technology)과 중국 소셜 플랫폼 샤오훙수(Xiaohongshu) 연구진이 2026년 5월 27일 arXiv(2605.28721)에 발표한 논문 ‘LiveBrowseComp’에 따르면, GPT-5.4·클로드 소넷 4.6(Claude Sonnet 4.6)·Kimi K2.6을 포함한 11종의 LLM(대규모 언어 모델) 기반 검색 에이전트를 분석한 결과, 검색 도구에 접근할 수 있을 때도 에이전트가 외부 증거보다 내부 지식에 의존하는 ‘내재적 지식 의존(IKD, Intrinsic Knowledge Dependence)’ 현상이 광범위하게 관측됐다.

연구진은 기존 벤치마크인 BrowseComp를 활용해 에이전트에게 검색 도구를 제공하지 않은 상태에서 질문에 답하도록 했다. 그 결과 일부 모델은 도구 없이도 최대 44.5%의 정확도를 기록했으며, 에이전트가 생성하는 검색 쿼리 중 상당수가 실제로 웹에서 찾아낸 단서가 아니라 모델 내부에서 생성된 가설에서 비롯된 것으로 확인됐다. 중국어 기반 BrowseComp-ZH 변형 실험에서는 Kimi K2.6이 검색 없이 62%의 정확도를 기록하기도 했다. 이는 정적인 검색 벤치마크가 에이전트의 실제 정보 발견 능력이 아닌, 기억에 기댄 검증 능력을 측정할 수 있다는 한계를 드러낸다.

파란 배경에 선과 점으로 이루어진 추상적인 데이터 네트워크 패턴
사진: Conny Schneider / Unsplash

연구진은 이 문제를 검증하기 위해 새로운 벤치마크 ‘LiveBrowseComp’를 개발했다. 이 벤치마크는 구축 시점 기준으로 90일 이내에 공개된 신규 사실에 답이 의존하는 인간 작성 질문 335개로 구성돼, 에이전트가 학습 데이터를 통해 미리 알 수 없는 정보를 요구한다. LiveBrowseComp에서 평가된 전 모델의 비보조(closed-book) 정확도는 2% 미만으로 급락했으며, 검색 도구를 사용했을 때조차 BrowseComp 대비 25~40점 낮은 점수를 기록했다. 기존 BrowseComp에서 유지되던 모델 간 성능 순위도 LiveBrowseComp에서는 더 이상 재현되지 않았다.

이 연구는 AI 검색·RAG(검색 증강 생성) 시스템을 도입한 기업과 개발자에게 직접적인 경고를 제기한다. 에이전트가 실제로 웹을 검색하고 있는지, 아니면 학습 당시의 지식을 재활용해 검증만 수행하는지를 별도로 평가하지 않으면 시스템의 실시간 정보 처리 능력이 과대평가될 수 있다는 것이다. 연구진은 LiveBrowseComp를 공개 배포해 향후 연구와 모델 평가에 활용할 수 있도록 했다.

Tags: AI 검색 에이전트arXivLiveBrowseCompLLMRAG뱌치마크
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
노트북 위에 놓인 스마트폰에 표시된 AI 챗봇 화면

해커, ChatGPT·Claude 공유 링크로 악성코드 유포… 'LLMShare' 공격 등장

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI 검색 AI과학 AI규제 AI보안 AI안전 AI 에이전트 AI에이전트 AI윤리 AI인프라 Anthropic AWS Claude Co-Scientist IPO LLM MCP OpenAI 강화학습 거버넌스 구글 기업공개 노동시장 데이터센터 마이크로소프트 멀티모달 메타 반도체 사이버보안 삼성전자 생산성 생성형AI 스페이스X 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 인수합병 중국 챗GPT 클라우드 클로드 허깅페이스

최근 뉴스

노트북 화면에 사이버보안 코드를 분석하는 장면

Arm, 에이전틱 AI 보안 프레임워크 ‘Metis’ 오픈소스 공개… 기존 SAST 대비 정탐률 10배

2026년 06월 01일 12시 48분
노트북 위에 놓인 스마트폰에 표시된 AI 챗봇 화면

해커, ChatGPT·Claude 공유 링크로 악성코드 유포… ‘LLMShare’ 공격 등장

2026년 06월 01일 12시 12분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.