ChatGPT GPT-5.5 Instant, 건강 응답 팩트 오류 71% 감소…무료 이용자도 적용

OpenAI가 ChatGPT에 적용된 GPT-5.5 Instant 모델의 건강 분야 응답 품질 개선 결과를 공개했다. 최근 두 달간 실제 서비스 트래픽을 분석한 결과, 건강 관련 응답에서 팩트 오류 징후가 발견되는 비율이 71% 감소한 것으로 나타났다. 매주 2억3,000만 명 이상이 건강·의료 관련 질의에 ChatGPT를 사용하는 만큼, 이번 개선의 영향 범위는 상당하다고 OpenAI는 설명했다.

이번 성과의 배경에는 의사 주도(physician-led) 평가 체계가 있다. OpenAI는 60개국, 49개 언어, 26개 의학 전문 분야에 걸친 260명 이상의 의사 네트워크와 협력해 모델 응답의 정확성·명확성·완결성·주의사항 적절성을 평가해왔다. 현재까지 의사들이 검토한 모델 응답 샘플은 70만 건을 넘으며, 수분 간격으로 새로운 응답 검토가 이루어지고 있다. OpenAI는 GPT-5.5 Instant가 HealthBench 및 HealthBench Professional 평가에서 기존 대비 향상된 성과를 보였으며, 가장 어려운 건강 평가 항목에서는 프런티어 추론 모델(Thinking 모델) 수준에 근접하는 성능을 보였다고 밝혔다.

Smartphone displaying ChatGPT interface on a vibrant background, showcasing AI technology. — 사진: Shantanu Kumar / Pexels

구체적인 개선 지점으로는 응급 상황 인지 능력 강화, 추가 맥락 정보를 적극적으로 요청하는 태도, 불확실한 상황에서 과도한 자신감을 드러내지 않는 표현 방식 등이 꼽혔다. 의사 응답과 모델 응답을 직접 비교한 평가에서 GPT-5.5 Instant는 지역별 의료 맥락 미반영, 위험 신호 누락, 사용자에게 필요한 추가 정보 요청 미비 등의 실패 항목에서 의사나 기존 모델보다 낮은 오류율을 기록했다. GPT-5.5 Instant는 무료 이용자에게도 제공되고 있어 개선된 건강 응답 품질을 더 광범위한 계층이 활용할 수 있다.

OpenAI는 ChatGPT for Clinicians, OpenAI for Healthcare 등 의료 전문가 대상 별도 서비스도 운영 중이다. 회사는 “인간 건강을 개선하는 것이 AGI(범용인공지능)의 가장 개인적이고 실질적인 영향 영역 중 하나”라며 정확성과 유용성을 지속적으로 높여나가겠다는 입장을 밝혔다. 건강 정보의 특성상 오류가 실질적 피해로 이어질 수 있는 만큼, 의사 참여 평가 체계의 규모와 지속성이 향후 모델 품질 개선의 핵심 변수가 될 전망이다.