OpenAI, 생명과학 AI 평가 기준 'LifeSciBench' 공개…GPT-Rosalind 36% 달성

OpenAI, 생명과학 AI 평가 기준 ‘LifeSciBench’ 공개…GPT-Rosalind 36% 달성

OpenAI가 실제 생명과학 연구 환경에서 AI 시스템의 실용적 역량을 측정하는 벤치마크 ‘LifeSciBench’를 공개했다. 박사급 훈련을 받고 바이오텍·제약 업계에서 신약 개발 경험이 있는 전문가 173명이 제작한 750개 과제로 구성되어 있으며, 453명의 전문가 검토단이 별도로 검증에 참여했다. 과제당 평균 25개 기준을 포함한 총 1만 9,020개의 채점 기준(루브릭)이 마련되어 있어, 단순 정답 여부가 아닌 과학적 추론의 질까지 평가한다.

LifeSciBench는 증거 해석, 분석, 설계·최적화, 과학적 추론, 검증·운영, 중개연구, 과학 커뮤니케이션 등 7가지 워크플로우와 7개 생물학 분야를 포괄한다. 과제의 79%가 복수의 추론 단계를 요구하며, 평균 4단계의 의사결정이 필요하다. 과제의 53%는 그림·PDF·표·염기서열·구조 파일 등 1,062개 첨부 파일에서 정보를 추출하고 종합하는 능력을 요구한다. 이는 단순 지식 기반 질의응답을 넘어 실제 연구 현장에서 과학자가 마주하는 복잡성을 재현하기 위한 설계다.

모델별 성과를 보면, OpenAI의 최신 GPT-Rosalind가 전체 합격률(과제 성공률 70% 이상 기준) 36.1%를 기록해 GPT-5.5의 25.7%를 크게 웃돌았다. 분야별로는 과학 커뮤니케이션(71.1%)과 중개연구(57.7%)에서 빠른 성장세를 보였으나, 설계·최적화(30.7%)와 분석(30.3%) 분야에서는 여전히 취약했다. 특히 첨부 파일이 포함된 과제에서 합격률이 45.1%에서 28.1%로 떨어졌으며, 정확한 염기서열이나 구조 출력이 요구되는 과제에서는 14.8%에 그쳤다. OpenAI는 LifeSciBench를 실제 연구 환경에서의 배포 연구와 연결하는 것이 다음 단계라고 밝혔다.