오픈AI(OpenAI)가 ChatGPT에 GPT-5.5 Instant 모델을 적용해 의료 관련 기능을 대폭 강화했다. 오픈AI에 따르면 이 모델은 HealthBench 및 HealthBench Professional 등 기계 기반 의료 평가 벤치마크에서 더 비싼 ‘싱킹(Thinking)’ 모델들과 동급 성능을 달성했으며, 정확성·명확성·완성도 면에서 의사가 직접 작성한 답변보다 높은 점수를 받았다. 부정확한 건강 정보 비율은 최근 두 달 새 71% 감소했다. GPT-5.5 Instant는 사용 횟수 제한이 있으나 ChatGPT 무료 사용자에게도 제공된다.
이번 성능 향상의 배경에는 전문 의료인 집단의 대규모 검증이 있다. 오픈AI는 60개국에서 모집한 260명 이상의 의사 네트워크를 구성했고, 이들이 70만 건 이상의 모델 응답을 검토했다. 이 과정에서 수집된 피드백이 GPT-5.5 Instant의 의료 응답 품질 개선에 직접 반영됐다. 오픈AI는 또한 의료 전문가를 위한 별도 서비스로 ‘ChatGPT for Clinicians(임상의를 위한 ChatGPT)’와 ‘OpenAI for Healthcare’를 운영 중이라고 밝혔다. 이는 일반 사용자 대상 기능 강화와 동시에 의료 전문가 시장을 별도 세그먼트로 공략하는 이중 전략으로 풀이된다.
오픈AI가 공개한 주간 사용 데이터에 따르면 2억 3,000만 명 이상이 ChatGPT를 건강 관련 목적으로 활용하고 있다. 구체적인 용도로는 검사 결과 해석, 의사 방문 전 사전 준비, 보험 관련 문의 등이 꼽혔다. 이 수치는 공식 의료 서비스 밖에서 이미 대규모 건강 정보 수요가 AI 챗봇으로 이동하고 있음을 보여준다. HealthBench는 오픈AI가 개발한 의료 특화 벤치마크로, 모델이 의료 질문에 얼마나 정확하고 안전한 답변을 제공하는지 평가한다. 싱킹 모델은 일반적으로 응답 시간과 비용이 높은 고성능 모델군을 가리키는데, GPT-5.5 Instant가 이와 동등한 의료 성능을 낮은 비용으로 달성한 점은 서비스 확장 측면에서 중요하다.
이번 발표가 갖는 전략적 의미는 단순한 모델 업그레이드 이상이다. 오픈AI가 60개국 의사 네트워크를 구성하고 70만 건의 검증 데이터를 축적한 것은 기술적 개선과 함께 규제 신뢰성 확보를 겨냥한 포석으로 읽힌다. 의료 AI 분야에서 각국 규제 기관이 가장 강조하는 요건 중 하나가 전문가 검증 절차의 투명성이라는 점에서, 이번 발표는 성능 홍보이자 규제 선점 전략이기도 하다는 점에서 의미가 있다. 특히 FDA와 유럽의약품청(EMA)이 AI 의료기기 심사 기준을 강화하는 흐름 속에서, “의사 260명이 70만 건을 검토했다”는 서사는 향후 규제 승인 과정에서도 활용 가능한 근거 자료가 된다.
이 발표가 주목되는 이유는 AI의 의료 정보 제공 역할이 단순한 부가 기능 수준을 넘어서고 있다는 신호이기 때문이다. 수억 명의 사용자가 이미 ChatGPT에 건강 관련 질문을 하고 있다는 사실은 거스르기 어려운 현실이다. 오픈AI가 이 현상을 방치하는 대신 의사 네트워크 검증과 전용 벤치마크를 통해 품질을 끌어올리는 방향을 택한 것은 책임 있는 접근으로 볼 여지가 있다. 오픈AI가 HealthBench를 공개하며 의료 AI 평가 기준 마련에 나선 흐름과도 연결되는 행보다.
그러나 낙관적 해석과 함께 신중한 시각도 필요하다. 오픈AI가 제시한 “의사보다 높은 점수”라는 표현은 엄밀히 살펴볼 필요가 있다. HealthBench 점수가 높다는 것이 임상 현장의 실제 의료 결정 품질을 그대로 반영하지는 않는다. 의사의 진단은 환자와의 직접 대면, 검사 결과, 의료 기록, 비언어적 신호 등 텍스트 외의 정보를 종합하는 과정인 반면, AI 모델은 텍스트 기반 질문에 텍스트로 답하는 구조이기 때문이다. 또한 부정확한 정보 비율 71% 감소가 초기 기준선이 무엇이었는지, 어떤 방법론으로 측정됐는지에 따라 숫자의 의미가 달라질 수 있다. 이 수치 역시 오픈AI 내부 측정값이다.
경쟁 구도 측면에서 구글(Google)은 메드-제미나이(Med-Gemini)를 통해 의료 AI에 일찍부터 투자해 왔고, 마이크로소프트(Microsoft)는 애저(Azure)를 통해 의료 기관 대상 AI 플랫폼을 운영하고 있다. 앤트로픽(Anthropic)의 클로드(Claude)도 의료·과학 분야 정확도를 중요 차별화 지점으로 내세운다. 이런 구도에서 오픈AI가 일반 사용자용 무료 모델로도 의료 벤치마크 최상위 수준을 달성했다고 발표한 것은 접근성과 비용 면에서의 우위를 강조하는 경쟁 전략으로 읽힌다.
한국 맥락에서 이 이슈는 여러 방향으로 파장이 있다. 한국은 의료 접근성이 상대적으로 양호한 편이지만, 1차 진료 과부하, 대기 시간 문제, 야간·주말 상담 공백 같은 구조적 문제는 존재한다. AI 의료 정보 서비스가 이런 틈새를 채울 수 있다는 기대와, 정확하지 않은 정보가 오히려 적절한 의료 서비스 이용을 방해할 수 있다는 우려가 공존한다. 식품의약품안전처와 보건복지부는 AI 의료기기 인허가 기준을 정비하고 있지만, ChatGPT 같은 범용 AI 챗봇의 건강 정보 제공에 대한 규제 기준은 아직 모호한 상태다. 오픈AI의 이번 발표가 단순한 기능 홍보를 넘어, 규제 기관 및 의료계와의 관계 설정에서 선점 효과를 노린 포석이기도 하다는 점에서 의미가 있다.
의료 AI 서비스가 확산될수록 책임 소재와 오류 발생 시 대응 체계 문제가 부각될 수밖에 없다. 사용자가 AI의 건강 정보를 기반으로 내린 판단이 나쁜 결과로 이어졌을 때, 그 책임이 사용자에게 있는지 서비스 제공자에게 있는지는 여전히 법적으로 불분명한 영역이다. 오픈AI가 “사용 횟수 제한이 있는 무료 제공”이라는 방식을 택한 것도 이 책임 구도와 무관하지 않다. 무료 서비스는 전문 의료기기로 분류될 가능성이 낮아 규제 부담이 줄지만, 동시에 오류 발생 시 보상 청구의 근거도 약해지는 구조다. 이는 기술 성능 향상과 별개로, AI 의료 서비스의 법적·윤리적 틀이 기술 발전 속도를 따라가지 못하고 있음을 보여주는 지점이라는 점에서 신중히 살펴볼 필요가 있다.
AI 의료 정보 서비스의 발전 방향에서 관건은 성능 수치가 아니라 신뢰 체계 구축이다. 오픈AI가 60개국 의사 260명 네트워크를 구성한 것은 단순히 모델 성능을 높이는 데 그치지 않고, “의료 전문가가 검증한 AI”라는 신뢰 내러티브를 만드는 작업이기도 하다. 임상 환경에서의 AI 도입이 가속화될수록, 기술 성능만큼 책임 소재와 오류 시 대응 체계가 중요해진다. 이번 업그레이드가 의료 AI 경쟁의 새로운 기준을 제시했다는 점에서 의미 있지만, 실제 사용 현장에서 어떤 결과로 이어지는지를 지속적으로 추적할 필요가 있다. 일반 사용자에게 무료로 제공되는 기능인 만큼, 이 기술의 실질적 영향은 앞으로 수억 명의 건강 정보 탐색 경험을 통해 드러날 것이다.
의료 AI 경쟁이 심화되면서 플랫폼 생태계 형성 전략도 주목할 만하다. 오픈AI가 ‘ChatGPT for Clinicians’와 ‘OpenAI for Healthcare’를 별도 운영하는 것은 일반 소비자와 의료 전문가 시장을 분리해 각각의 요구에 맞춘 서비스를 제공하는 투트랙 전략이다. 의료 전문가를 대상으로 한 서비스가 병원 정보 시스템과 전자의무기록(EMR)에 연동되는 방향으로 발전할 경우, 단순한 정보 제공을 넘어 임상 의사결정 지원 시스템으로 위상이 달라진다. 이 경우 규제 요건도 훨씬 엄격해지는데, 오픈AI가 지금부터 의사 네트워크와 검증 데이터를 축적하는 것은 이 다음 단계를 위한 포석으로 볼 수 있다는 점에서 의미가 있다.
한국 의료 AI 스타트업들에게도 이번 발표는 중요한 경쟁 환경 변화를 의미한다. 국내에서는 뷰노(VUNO), 루닛(Lunit), 딥노이드(DeepNoid) 등이 의료 영상 분석 AI를 중심으로 성과를 내고 있지만, ChatGPT처럼 텍스트 기반 건강 정보 제공 서비스가 강화될수록 국내 사용자들이 해외 플랫폼에 더 의존하게 될 가능성을 배제할 수 없다. 한국어 의료 정보의 정확성과 국내 의료 체계에 맞는 맥락 적합성은 글로벌 모델이 단기간에 완전히 따라잡기 어려운 영역이라는 점에서, 국내 의료 AI 기업들이 이 틈새를 어떻게 공략하느냐가 앞으로의 경쟁력을 가를 변수가 될 것으로 판단된다.














