LLM(대규모 언어 모델)이 실제 임상 환경에서 겪는 한계를 체계적으로 측정하기 위한 멀티코스 임상 의사결정 벤치마크 ClinicalMC가 공개됐다. 2026년 6월 2일 arXiv에 게재된 이 연구는 환자 상태가 시간에 따라 변화하는 다중 진료 과정(multi-course)을 반영하지 못했던 기존 단일 진료 평가 방식의 공백을 채우려는 시도다.
ClinicalMC는 입원 단계인 중증도 분류(triage)부터 초기 검사·진단·치료, 이후 복수 진료 과정 검사·평가·처치, 최종 진단까지 4단계로 구성된다. 데이터셋은 중국어 샘플 1,275건과 영어 샘플 5,804건으로 이뤄졌다. 영어 데이터셋에서 환자 1인당 평균 5.11개의 임상 진료 과정이 포함됐으며, 중국어 데이터셋은 3.42개였다. 평가 체계는 환자·검사자·의사 역할을 맡는 다중 에이전트 프레임워크로 구성됐으며, 단일 턴 정적 설정과 멀티 턴 동적 설정 두 가지 실험 방식을 제공한다.
연구팀은 GPT5-mini를 포함한 클로즈드소스 LLM, DeepSeek-V3.2 등 오픈소스 LLM, 그리고 HuatuoGPT-o1 같은 의료 특화 LLM 세 카테고리로 나눠 성능을 평가했다. 기존 벤치마크들이 주로 단일 진료 설정에 집중해 환자 상태 변화를 반영하지 못한다는 한계를 지적하면서, 시간적 흐름에 따른 임상 추론 능력을 측정하는 데 초점을 뒀다.
의료 분야에서 LLM 활용이 확대되는 추세이나, 복잡한 임상 의사결정 시나리오에서는 여전히 상당한 한계가 존재한다는 점이 연구의 출발점이다. ClinicalMC는 향후 의료 AI 모델의 신뢰성 있는 헬스케어 배포를 지원하는 표준 평가 도구로 활용될 것으로 기대된다.












