AI 에이전트용 브라우저 인프라 스타트업 Browserbase의 창업자 폴 클라인(Paul Klein)이 QCon 컨퍼런스에서 MCP(모델 컨텍스트 프로토콜)를 활용한 웹 자동화 아키텍처를 발표했다. Browserbase는 시리즈 B 투자를 유치한 기업으로, AI 에이전트가 실제 사용자처럼 웹을 탐색하고 작업을 수행하는 데 필요한 클라우드 브라우저 인프라를 제공한다. 발표에 따르면 지난달 고객들이 Browserbase에서 누적 92년치 브라우징을 처리했으며, 이는 프로덕션 AI 에이전트 배포가 빠르게 확산되고 있음을 보여준다.
클라인은 AI 에이전트를 목표를 향해 계획을 세우고 도구를 스스로 선택해 루프 방식으로 실행하는 소프트웨어로 정의했다. 웹을 탐색하는 에이전트의 기술 유형은 크게 세 가지다. 비전 웹 에이전트(Vision Web Agent)는 페이지 스크린샷을 기반으로 좌표 클릭을 수행하고, 텍스트 웹 에이전트(Text Web Agent)는 접근성 트리 또는 단순화된 HTML을 파싱해 CSS 선택자나 XPath로 요소를 식별한다. 컴퓨터유즈 에이전트(Computer-Use Agent)는 비전 모델에 장기 컨텍스트 추론 훈련을 결합한 것으로, 웹 이동 궤적 데이터를 학습해 복잡한 다단계 작업에서 강점을 보인다. 각 방식은 비용·지연·정확도 사이의 트레이드오프가 다르므로 사용 사례에 맞는 모델 선택이 중요하다고 클라인은 강조했다.
클라우드 환경에서 브라우저를 대규모로 운영하는 것은 데이터베이스나 캐시 서버와 달리 설계 사례가 적은 미개척 분산 시스템 영역이라고 클라인은 설명했다. 브라우저는 로컬 노트북에서 가장 많은 자원을 사용하는 프로세스인데, 이를 서버에 올리려면 샌드박스·스케줄러·브라우저 바이너리·통신 프로토콜·에이전트 프레임워크·모델까지 여섯 개 계층의 설계가 필요하다. MCP와 같은 도구 프로토콜은 인프라 기능을 AI 에이전트에 노출하는 표준 방식으로 부상하고 있으며, CLI 기반 명령어를 모델이 익숙하게 다룰 수 있어 브라우저 도구와 잘 결합된다고 클라인은 밝혔다.
에이전트가 웹을 통해 실제 업무를 수행하는 방식은 기업 자동화 파이프라인의 구조를 바꾸고 있다. 웹 인터페이스가 API 없이도 에이전트에게 무한한 도구 집합을 제공하기 때문에, API 통합 없이 레거시 시스템을 자동화하려는 수요가 늘고 있다. 국내 기업도 RPA(로봇 프로세스 자동화)에서 에이전트 기반 브라우저 자동화로의 전환을 검토하는 단계에 있어, MCP 표준과 브라우저 인프라 선택이 도입 전략의 핵심 변수가 될 전망이다.














