인공지능(AI) 웹 에이전트가 단순한 클릭 자동화 수준을 넘어 직접 코드를 작성해 작업을 수행하는 방향으로 진화하고 있다. 마이크로소프트(MS)는 브라우저 화면을 단계별로 조작하던 기존 방식 대신, AI가 코드를 생성해 웹 업무를 처리하는 오픈소스 프레임워크 ‘웹라이트(Webwright)’를 공개했다.
기존 웹 AI 에이전트는 화면 정보나 웹페이지 구조(DOM)를 보고 클릭·스크롤·입력 같은 행동을 하나씩 수행했다. 반면 웹라이트는 AI에게 브라우저 대신 ‘터미널’을 제공한다. AI가 직접 버튼을 누르는 대신 코드와 명령어를 작성해 웹사이트를 탐색하고 작업을 처리하는 방식이다. MS의 브라우저 자동화 라이브러리 ‘플레이라이트’를 기반으로 동작하며, AI는 코드를 작성해 브라우저를 실행하고 로그와 오류를 점검한 뒤 스크립트를 반복 수정한다.

이는 사람이 반복 작업 자동화(RPA) 스크립트를 만드는 방식과 비슷하다. 매번 직접 클릭하는 대신 한 번 만든 코드를 반복 실행하고 필요에 따라 수정하거나 재활용할 수 있어, 웹 작업의 안정성과 재사용성이 크게 높아진다는 설명이다. 전체 구조도 비교적 단순해, 복잡한 멀티 에이전트 체계 없이 단일 반복 루프만으로 동작한다.

연구진은 기존 클릭 중심 에이전트의 한계로 ‘조기 완료 선언’과 ‘문맥 폭증’을 지적했다. AI가 실제로 작업을 끝내지 않았는데도 완료됐다고 판단하는 사례가 잦았다는 것이다. 이를 해결하기 위해 웹라이트는 마지막 단계에서 AI가 직접 검증용 스크립트를 실행해 결과를 스스로 평가하고, 실패하면 작업을 이어가도록 설계됐다. 또 작업이 길어지면 이전 기록을 주기적으로 요약·압축해 문맥 길이를 관리한다.
성능도 주목된다. 웹라이트는 실제 웹사이트 작업 벤치마크에서 GPT-5.4 기반 구성으로 86.67% 정확도를 기록해, 공개된 자동 평가 기반 웹 에이전트 중 최고 수준이라는 설명이다. 연구진은 앞으로 웹 에이전트가 반복적 작업은 재사용 코드로, 예외 상황은 클릭·스크롤로 처리하는 혼합 방식으로 갈 것으로 전망했다. 국내 개발자로서도 오픈소스로 공개된 코드 기반 웹 에이전트는 업무 자동화의 새 접근으로 참고할 만하다.


