컴퓨터 화면 인터페이스(GUI)를 조작하는 AI 에이전트의 성공률을 크게 높이는 새로운 반복 자기 개선 프레임워크가 arXiv에 공개됐다. 연구진이 제안한 SGCD(Skill-Guided Continuation Distillation)는 전문가 경로 행동 복제(behavior cloning) 방식의 핵심 한계인 ‘정책 유도 경로 이탈 상태’ 문제를 겨냥한다. 기존 방식에서는 에이전트가 전문가 궤적에서 벗어난 상태, 즉 전문가 시연이 없는 상태에 놓이면 적절한 행동 지도를 받지 못해 실패율이 높아진다.
SGCD는 이 감독 공백을 메우기 위해 두 단계를 결합한다. 먼저 기술 지도 없이 기본 정책을 몇 단계 실행해 실제로 발생 가능한 경로 이탈 상태에 도달한다. 이후 기술 지도 정책이 해당 상태에서 작업을 완료하는 ‘성공적 연속(successful continuations)’을 생성하고, 이를 전문가 궤적과 혼합해 이탈 상태에 대한 학습 데이터를 보완한다. 기술(skills)은 성공 및 실패 경험 모두에서 추출되며, 연속 계획(Continuation Plans), 핵심 목표(Critical Targets), 실패 함정(Failure Traps), 성공 기준(Success Criteria)의 네 가지 요소로 구성된다.
OSWorld-Verified 벤치마크에서 SGCD를 적용한 결과 세 가지 기반 모델의 작업 성공률이 30% 초반대에서 50% 이상으로 향상됐다고 논문은 보고했다. GUI 에이전트는 웹 브라우저 조작, 파일 관리, 애플리케이션 제어 등 다양한 컴퓨터 작업을 자율적으로 수행하는 AI 시스템으로, 업무 자동화 분야에서 큰 관심을 받고 있다. 전문가 시연 데이터 확보 비용이 높은 현실에서 SGCD처럼 실패 경험에서 역으로 학습하는 자기 개선 방식은 데이터 효율을 높일 수 있다는 점에서 주목된다.
이번 연구는 기반 모델 세 종에 걸쳐 일관된 성능 향상을 입증해 프레임워크의 범용성을 확인했다는 점도 강점으로 꼽힌다. GUI 에이전트 기술은 오피스 자동화, 소프트웨어 테스트, 고객 서비스 등 실무 적용 범위가 넓어 성공률 개선은 실용적 가치가 크며, SGCD는 향후 복잡한 멀티 스텝 작업으로의 확장 가능성도 열어두고 있다.














