OpenWebRL-4B, 온라인 강화학습으로 웹 에이전트 오픈소스 최강 등극

실제 웹사이트에서 온라인 다회전 강화학습(RL)으로 훈련한 시각 웹 에이전트 OpenWebRL-4B가 공개됐다. 연구팀은 arXiv 논문을 통해 OpenWebRL-4B가 도전적인 라이브 웹 벤치마크에서 Online-Mind2Web 67.0%, DeepShop 64.0% 성공률을 기록하며 유사하거나 더 큰 규모의 기존 오픈소스 에이전트를 모두 앞질렀다고 밝혔다. 오픈AI CUA, 제미나이(Gemini) CUA 등 독점 시스템과도 경쟁력 있는 수준이다.

기존 시각 웹 에이전트 연구는 대규모 정제된 웹 궤적 데이터에 의존한 지도 학습 후훈련(supervised post-training) 방식에 치우쳐 있었다. 이는 고품질 시연 데이터 수집 비용과 정적 데이터셋의 커버리지 한계라는 이중 병목을 낳았다. 텍스트 기반 에이전트에서는 온라인 RL이 성과를 보였지만, 실제 웹사이트에서 시각 웹 에이전트를 직접 훈련하는 방식은 충분히 탐구되지 않은 상태였다. OpenWebRL은 단 0.4K의 초기화 궤적과 2.2K의 개방형 RL 훈련 과제만으로 이 성과를 달성했다.

OpenWebRL 프레임워크는 확장 가능한 라이브 브라우저 인프라, 지도 초기화, 멀티모달 컨텍스트 관리, 궤적 수준 성공 판정, 효율적인 다회전 정책 최적화를 포함한 전체 훈련 파이프라인을 오픈소스로 제공한다. 연구팀은 온라인 RL을 시각 웹 에이전트에 효과적으로 적용하는 핵심 설계 선택들을 체계적으로 분석하고, RL이 에이전틱 추론을 어떻게 개선하는지도 함께 살펴봤다. 훈련 데이터, 모델, 코드는 연구 커뮤니티에 공개될 예정이다.

웹 에이전트는 복잡한 다단계 추론, 정밀한 그라운딩, 동적 실세계 웹사이트와의 상호작용을 요구해 현재 AI 능력의 중요한 시험대로 여겨진다. OpenWebRL의 결과는 소규모 초기화 데이터와 온라인 RL만으로 강력한 에이전트를 구축하는 비용 효율적 경로가 가능함을 보여준다. 이는 대규모 데이터 수집 없이 재현 가능한 웹 에이전트 연구의 접근성을 높이는 방향으로 기여할 것으로 전망된다.