의료 AI 미라·AMIE, 의사 6명보다 진단 정확도 높아…Nature 게재 연구

의료 AI가 특정 질환 진단과 약물 처방 분야에서 인간 의사를 능가하는 성능을 보였다는 연구 결과 두 편이 국제 학술지 네이처(Nature)에 나란히 게재됐다. 독일 드레스덴공대와 하이델베르크대학병원 연구진이 개발한 의료 AI 에이전트 ‘미라(Mira)’와 구글이 개발한 의료 AI ‘에이미(AMIE)’가 각각의 연구를 통해 임상 역량을 평가받았다고 영국 파이낸셜타임스(FT)가 19일(현지 시각) 전했다. 두 연구가 동시에 네이처에 실렸다는 사실 자체가, 의료 AI의 임상적 가능성이 주류 과학 담론의 전면으로 올라섰음을 의미한다.

미라는 500건이 넘는 응급실 임상 사례를 바탕으로 한 평가에서 맹장염과 폐색전증을 포함한 주요 질환 8개 항목에서 87.1%의 진단 정확도를 기록했다. 이는 전문의와 전공의 등 6명으로 구성된 의사 집단의 정확도인 78.1%를 웃도는 수치다. 연구진은 환자 역할을 맡은 AI와의 대화를 통해 증상과 병력을 전달한 뒤, 진단·검사 계획·약물 처방·수술 일정 결정까지 종합적으로 측정했다. 구글의 에이미는 환자 역할을 맡은 배우들과의 모의 진료를 통해 1차 진료 의사 21명과 성과를 비교했다. 전반적인 환자 관리 역량에서 의사들과 유사한 수준을 기록했고, 검사 계획 수립과 임상 가이드라인 준수 항목에서는 오히려 더 높은 평가를 받았다. 구글은 “AI가 의료진의 업무 부담을 줄이고 환자와의 소통 시간을 늘리는 데 기여할 수 있음을 보여준다”고 평가했다.

의사 6명보다 진단 더 정확했다…약처방도 뛰어난 AI 등장에 의료계 '깜짝' — 이미지 출처: 원문 (의사 6명보다 진단 더 정확했다…약처방도 뛰어난 AI 등장에 의료계 ‘깜짝’)

이번 연구 결과가 나오기까지의 흐름은 의료 AI 분야의 급격한 발전을 보여준다. 수년 전만 해도 AI의 의료 적용은 영상 판독과 같은 패턴 인식 중심이었으나, 이제는 환자와 자연어로 소통하며 복합 증상을 종합 판단하는 에이전트 단계로 진입했다. 대규모 언어 모델(LLM)의 추론 능력이 방대한 의학 문헌과 임상 데이터를 통합 처리하면서, 개별 질환 특화 AI를 넘어 다양한 증상을 아우르는 범용 진단 AI의 가능성이 현실화되고 있다.

이 연구 결과가 갖는 의미는 크지만, 연구진과 전문가들은 AI가 의사를 대체할 수 있다는 해석에는 분명히 선을 긋는다. 미라는 일부 사례에서 최적 치료 방안에서 벗어난 판단을 내렸으며, 에이미 역시 실제 임상 환경 적용을 위해서는 추가 검증이 필요하다. 에든버러대 의료정보학 교수 줄리 자코는 “이번 연구는 의료 AI 발전의 중요한 이정표”라면서도 “실제 임상 현장의 복잡성과 불확실성을 완전히 반영한 결과로 보기는 어렵다”고 평가했다. 미라 개발에 참여한 야코프 카터 드레스덴공대 교수도 “AI는 항공기의 자동항법장치와 비슷한 역할이 될 것”이라며, 반복적 업무를 지원하되 최종 책임과 판단은 의사에게 남는다고 강조했다.

한국 의료계와 AI 산업 양측 모두에 시사점이 크다. 국내에서는 의료 AI 규제 프레임워크 논의가 진행 중이며, 의료기기로서의 AI 허가 기준이 점차 세분화되고 있다. 이번 연구처럼 진단 정확도에서 의사를 앞서는 결과가 반복 검증된다면, 허가 기준과 책임 소재, 건강보험 수가 적용 방식 등이 근본적으로 재검토되어야 한다는 압력이 높아질 것이다. 낙관론으로는 의료 AI 확산이 의사 부족 문제가 심각한 지방 의료 및 1차 진료 공백을 채우는 데 기여할 수 있다는 점이 꼽힌다. 반면 AI 진단에 대한 과도한 신뢰가 의사의 임상 경험 축소로 이어지거나, 오진 발생 시 책임 귀속이 불명확해지는 문제도 지적된다. 어느 쪽 시나리오가 현실화되느냐는 기술 자체보다 이를 어떻게 제도화하느냐에 달려 있다.