구글(Google)이 개발한 의료 AI ‘에이미(AMIE, Articulate Medical Intelligence Explorer)’가 동네 의원급 1차 의료진과 비교한 가상 진료 실험에서 진료계획 적절성 평가 전반에 걸쳐 앞서는 결과를 냈다. 이 연구는 국제 학술지 ‘네이처(Nature)’에 6월 17일 게재됐다. 에이미의 기반 모델은 구글이 개발한 제미나이(Gemini) 1.5 플래시다.
연구진은 에이미와 경력 중간값 9년의 1차 진료의 21명에게 가상 환자 100명을 텍스트 대화 형식으로 1~2일 간격에 걸쳐 세 차례씩 진료하게 했다. 채점은 AI인지 사람인지 모르는 전문의들이 맡았다. 평가 결과, 진료계획의 적절성 비율은 첫 진료에서 에이미 95% 대 의사 72%, 두 번째 진료에서 96% 대 80%, 세 번째 진료에서는 98% 대 81%였다. 처방 구체성(약명·복용량·복용 기간 포함 여부)에서도 에이미가 96%로 의사(62%)를 크게 앞섰다. 에이미와 의사 중 우열을 선택하도록 한 평가에서는 절반 정도가 차이를 두지 못했지만, 한쪽을 고른 응답자의 경우 에이미를 선택한 비율(47%)이 의사를 선택한 비율(7%)보다 훨씬 높았다.
연구진은 이번 실험의 한계도 명시했다. 진짜 환자가 아닌 가상 환자를 대상으로 했으며, 음성·영상 없이 텍스트 대화만으로 진행됐다. 진료 간격이 1~2일로 짧아 환자를 기억하기 쉬운 인간 의사에게 불리한 조건이었다. 실험에서 적용한 영국 진료 지침(NICE·BMJ)과 실제 참여 의사들이 근무하는 캐나다·인도의 진료 환경 차이도 변수로 작용한다. AI 특유의 ‘환각(hallucination)’ 문제와 관련해서는, 에이미가 사실을 지어내는 빈도가 사람 의사와 비슷하거나 오히려 낮았다고 연구진은 밝혔다. 연구진은 이번 결과가 의료 인력이 부족한 농촌이나 고령화 사회에서의 의료 공백 보완 가능성을 보여준다면서도, 실제 임상 적용에는 추가 검증이 필요하다는 결론을 내렸다.














