오픈AI o3, 희귀 유전질환 376건 재분석해 18건 진단 성공

오픈AI(OpenAI)의 추론 모델 o3 딥 리서치(o3 Deep Research)가 전문가 검토에서도 해결되지 않은 소아 희귀 유전질환 376건을 재분석해 18건의 추가 진단을 이끌어냈다. 보스턴어린이병원 만톤 고아질환연구센터, 하버드대학교, 오픈AI 공동 연구팀은 2026년 6월 18일 NEJM AI에 이 연구를 발표했다. 376건 가운데 18건, 즉 4.8%의 추가 진단율을 기록한 것으로, 기존 전문가 파이프라인이 모두 검토한 사례만 대상으로 했다는 점에서 의미가 작지 않다는 평가가 나온다.

연구팀은 신경발달장애(100건), 신경근육질환(61건), 조기 정신증(15건), 소아 급사(200건) 등 네 개 집단으로 구성된 익명화된 임상·유전체 정보를 모델에 입력했다. 모델은 환자의 표현형(Human Phenotype Ontology 용어), 변이 테이블, 임상 노트를 종합해 가장 유력한 단일 유전자 원인과 근거를 제시했다. 최종 진단은 모델이 내리지 않았으며, 연구자 2인 이상이 ACMG/AMP 기준으로 검토하고 CLIA 인증 실험실에서 확인한 뒤 임상의가 가족에게 결과를 전달하는 절차를 거쳤다. 신경발달 집단에서 10.0%, 신경근육 집단에서 6.6%, 조기 정신증 집단에서 13.3%의 진단율을 기록했다.

Smartphone showing ChatGPT website with warm tone, highlighting AI technology. — 사진: Sanket Mishra / Pexels

특히 조기 정신증 사례 1건에서는 모델이 입력 데이터에 명시되지 않은 구조 변이를 스스로 추론해냈다. 염색체 22번의 저품질 신호 구간과 환자의 심장·면역·신경발달·정신과 증상을 연결해 디조지 증후군(DiGeorge syndrome)과 관련된 22q11.2 결실을 가설로 제시했으며, 추가 유전체 검사로 확인됐다. 신경근육 집단에서는 LAMA2와 FOXP1 두 유전자 변이가 복합적으로 증상을 설명하는 이중 유전자(digenic) 원인을 제안한 사례도 있었다.

연구팀은 모델이 임상 결정을 내리거나 진단을 대신하지 않는다는 점을 명시했다. 대규모 언어 모델은 맥락을 잘못 읽거나 그럴듯하지만 틀린 설명을 생성할 수 있기 때문에, 모든 결과는 인간 검토와 임상 확인을 통과한 경우에만 진단으로 인정됐다. 보스턴어린이병원 캐서린 브라운스타인 박사는 “병목은 시간이며, 전문가가 한 사람에게 쏟을 수 있는 시간에는 한계가 있다”고 밝혔다. 오픈AI 재단은 만톤센터가 플랫폼 독립적인 저비용 희귀질환 AI 보조 도구 개발을 이어가도록 연구비를 지원할 예정이다.