임상 컴퓨터 조작 AI 벤치마크 MedCUA-Bench 공개

의료 그래픽 사용자 인터페이스(GUI) 환경에서 컴퓨터 조작 에이전트를 평가하는 벤치마크 ‘MedCUA-Bench’가 공개됐다. 연구팀은 기존 벤치마크가 일반 웹·데스크톱 작업에 치중해 의료 소프트웨어의 특수성을 충분히 반영하지 못한다는 문제를 지적하며, 실제 임상 현장에서 사용하는 인터페이스를 기반으로 한 평가 체계를 새롭게 제시했다.

MedCUA-Bench는 10개 의료 도메인에 걸친 18개 임상 시나리오를 다루며, 실제 제품 매뉴얼과 오픈소스 의료 시스템에서 재구성한 인터페이스를 활용한다. 각 과제는 임상 추론 능력과 UI 실행 능력을 분리해 평가하는 인텐트(intent) 목표와 스텝(step) 목표를 쌍으로 제공한다. 과제 완료 여부와 함께 다섯 가지 임상 안전 차원을 결정론적 평가기로 검증하는 방식이 특징이다.

A high-tech digital interface showcasing control parameters and futuristic data visualization. — 사진: Egor Komarov / Pexels

23개 에이전트를 대상으로 한 평가 결과, 최고 성능의 클로즈드 소스 모델도 엄격한 성공률(strict success) 54.2%에 그쳤다. 실제 오픈EMR(OpenEMR) 환경에서는 모든 모델이 9% 미만의 성공률을 기록했다. 오픈소스 에이전트는 평균 2.5%, 최고 성능 모델도 16.2%에 머물렀다. 의료 소프트웨어 환경에서 현재 AI 에이전트의 신뢰성이 임상 적용에 충분한 수준에 이르지 못함을 보여주는 결과다.

연구팀은 MedCUA-Bench가 현재 에이전트와 신뢰할 수 있는 임상 소프트웨어 운용 사이의 격차를 드러내며, 향후 연구를 위한 재현 가능한 테스트베드를 제공한다고 밝혔다. 반복적인 화면 기반 임상 업무를 자동화할 수 있는 컴퓨터 조작 에이전트(computer-use agent)에 대한 기대가 높아지는 가운데, 의료 분야 특화 평가 기준의 필요성이 부각되고 있다.