의료 그래픽 사용자 인터페이스(GUI) 환경에서 컴퓨터 조작 에이전트를 평가하는 벤치마크 ‘MedCUA-Bench’가 공개됐다. 연구팀은 기존 벤치마크가 일반 웹·데스크톱 작업에 치중해 의료 소프트웨어의 특수성을 충분히 반영하지 못한다는 문제를 지적하며, 실제 임상 현장에서 사용하는 인터페이스를 기반으로 한 평가 체계를 새롭게 제시했다.
MedCUA-Bench는 10개 의료 도메인에 걸친 18개 임상 시나리오를 다루며, 실제 제품 매뉴얼과 오픈소스 의료 시스템에서 재구성한 인터페이스를 활용한다. 각 과제는 임상 추론 능력과 UI 실행 능력을 분리해 평가하는 인텐트(intent) 목표와 스텝(step) 목표를 쌍으로 제공한다. 과제 완료 여부와 함께 다섯 가지 임상 안전 차원을 결정론적 평가기로 검증하는 방식이 특징이다.

23개 에이전트를 대상으로 한 평가 결과, 최고 성능의 클로즈드 소스 모델도 엄격한 성공률(strict success) 54.2%에 그쳤다. 실제 오픈EMR(OpenEMR) 환경에서는 모든 모델이 9% 미만의 성공률을 기록했다. 오픈소스 에이전트는 평균 2.5%, 최고 성능 모델도 16.2%에 머물렀다. 의료 소프트웨어 환경에서 현재 AI 에이전트의 신뢰성이 임상 적용에 충분한 수준에 이르지 못함을 보여주는 결과다.
연구팀은 MedCUA-Bench가 현재 에이전트와 신뢰할 수 있는 임상 소프트웨어 운용 사이의 격차를 드러내며, 향후 연구를 위한 재현 가능한 테스트베드를 제공한다고 밝혔다. 반복적인 화면 기반 임상 업무를 자동화할 수 있는 컴퓨터 조작 에이전트(computer-use agent)에 대한 기대가 높아지는 가운데, 의료 분야 특화 평가 기준의 필요성이 부각되고 있다.














