OSGuard, 컴퓨터 사용 AI 에이전트 안전성 평가 벤치마크 공개

6월 13일 arXiv에 공개된 OSGuard는 데스크톱·웹 환경에서 자율적으로 작업을 수행하는 컴퓨터 사용 에이전트(computer-use agent)의 안전성을 체계적으로 평가하기 위한 이중 세분도(dual-granularity) 벤치마크다. 현재 컴퓨터 사용 에이전트 연구는 주어진 작업을 완료했는지 여부를 기준으로 성능을 평가하는 경우가 많다. 그러나 에이전트가 명목상의 목표를 달성하더라도 파일을 덮어쓰거나 의도치 않은 부작용을 낳는 안전하지 않은 경로를 택했을 때는 기존 평가 지표가 이를 놓칠 수 있다는 문제가 있다.

OSGuard는 이 문제를 두 가지 평가 계층으로 나눠 접근한다. 첫 번째는 행동 수준(action-level) 벤치마크로, 에이전트가 제안하는 개별 행동이 원래 명령과 현재 인터페이스 상태를 기준으로 허용·무관·안전하지 않음 중 어느 범주에 해당하는지를 레이블링한 데이터셋을 제공한다. 두 번째는 위험 증강 실행 평가로, 원래 작업은 여전히 수행 가능하지만 환경에 파괴적 덮어쓰기 같은 잠재적 위험이 삽입된 변형 과제를 에이전트가 수행하게 한다. 각 변형 과제에는 기존 작업 성공 기준을 유지하면서 상태 기반 안전 불변조건을 추가로 검사하는 평가기가 함께 설계돼 있어, 에이전트가 작업에 성공했지만 안전하지 않은 방식으로 완료했는지를 구별할 수 있다.

논문의 실험 결과, 현재의 멀티모달 가드레일 모델은 개별 행동 판단에서는 상당한 성능을 보였으나, 위험 증강 실행 평가에서는 로컬 감시와 종단간 안전성 사이에 여전히 간극이 존재하는 것으로 나타났다. 자율 에이전트가 브라우저나 운영체제를 직접 조작하는 수준으로 발전하는 상황에서 이 같은 이중 계층 안전 평가 틀은 에이전트 배포 전 리스크를 진단하는 데 실질적인 참고 자료가 될 것으로 기대된다.