응급실 기록으로 시험한 LLM, 임상 추론서 의사를 앞섰다

의료 분야 컴퓨팅의 초기 목표 중 하나는 진단에 이르고 치료 계획을 세우는 임상 추론을 돕는 것이었다. 오랫동안 연구자들은 증상·검사 기준치·약물 상호작용에 관한 규칙을 일일이 작성한 임상 의사결정 지원 시스템을 만들어 왔다. AI 능력이 발전하면서 임상 추론은 자연스러운 응용 분야가 됐다.

오픈AI의 한 언어모델(LLM)이 실제 응급실 기록을 활용한 여러 임상 추론 과제에서 의사를 앞섰다는 연구가 학술지 ‘사이언스’에 4월 30일 게재됐다. 다만 이 결과는 챗봇의 의료 정보에 관한 우려가 교차하는 가운데 나왔다. 일부 연구는 인상적인 진단 성능을 보였지만, 다른 연구는 날조된 인용, 결함 있는 조언, 채점 방식에 따라 달라지는 결과를 지적했다.

이런 불확실성에도 의료 전문가용 제품은 이미 시장에 진입하고 있다. 올해 오픈AI는 임상의용·의료기관용 챗GPT를 선보였다. 연구진은 시험에 쓴 모델의 성능이 충분히 유망해, 의사가 특정 지점에서 진단에 대한 2차 소견을 구하는 방식으로 실제 사례에서 LLM을 추가 검증할 것을 권고했다.

의료 기록 — 출처: Wikimedia Commons / Public domain

다만 이번 시험에 쓰인 모델은 이후 더 새로운 모델로 대체된 구형이라는 점도 함께 짚힌다. 그만큼 빠르게 발전하는 분야지만, 진단처럼 사람 생명이 걸린 영역에서는 성능 지표만으로 도입을 결정하기 어렵다. 규칙 기반으로 일일이 짜던 과거 의사결정 지원 시스템과 달리, 범용 LLM은 폭넓게 적용되는 대신 예측 불가능성도 안고 있다.

AI가 임상 추론에서 의사를 앞섰다는 결과는 의료 AI의 잠재력과 한계를 동시에 보여준다. 성능은 인상적이지만 날조·오류 위험이 상존하는 만큼, 사람이 최종 판단하는 보조 도구로 쓰는 것이 현실적이다. 국내 의료계에서도 AI를 진단 보조에 도입할 때 검증 절차와 책임 소재를 함께 설계해야 한다.