TxBench-PP, 신약 개발 전임상 약리학 AI 에이전트 평가 벤치마크 공개

소분자(small-molecule) 전임상 약리학 분야에서 AI 에이전트의 실제 의사결정 능력을 평가하는 벤치마크 TxBench-PP(TherapeuticsBench Preclinical Pharmacology)가 arXiv에 공개됐다. 연구진은 AI 에이전트가 논문에서 암기한 사실이 아닌 실제 실험 데이터에서 정확한 결론을 도출할 수 있는지를 검증하는 데 초점을 맞췄다. 이 벤치마크는 신약 개발 전 과정을 아우르는 더 광범위한 TherapeuticsBench 프레임워크의 첫 번째 특화 모듈에 해당한다.

TxBench-PP는 100개의 평가 항목으로 구성되며, 작용기전(MoA)과 약력학적(PD) 추론, 화합물-표적 결합, 인과적 표적 검증, 개발 적합성과 안전성, 전임상 효능 번역 등 전임상 단계의 핵심 과제를 포괄한다. 에이전트는 실제 업무와 유사한 실험 데이터 스냅샷을 받아 코딩 환경에서 파일을 직접 분석하고 구조화된 답변을 제출하는 방식으로 평가되며, 채점은 결정론적 방식으로 이뤄진다. 11개 모델을 조합한 16개 모델-하네스 설정에서 4,800개의 수행 궤적을 분석했다.

평가 결과 어떤 시스템도 전임상 약리학 의사결정을 신뢰 가능한 수준으로 수행하지 못했다. 가장 높은 성능을 보인 설정은 Claude Opus 4.8 / Pi로, 엔드포인트 시도의 59.3%(178/300건, 95% 신뢰구간 51.1~67.6%)를 통과했다. 두 번째는 GPT-5.5 / Pi로 55.3%(166/300건, 47.0~63.6%)를 기록했다. 상위 시스템들도 절반 수준에서 성능이 정체되는 양상으로, 현재 AI 에이전트가 실제 전임상 연구 환경에서 독립적인 의사결정 도구로 활용되기에는 한계가 있음을 보여준다.

신약 개발은 AI 적용에 대한 기대가 큰 분야지만, 이번 벤치마크는 실험실 데이터 기반의 구체적 추론 능력이 요구되는 전임상 단계에서 현행 AI 에이전트가 아직 갈 길이 멀다는 점을 확인해준다. 연구진은 TxBench-PP가 신약 개발의 다른 단계와 치료 모달리티로 확장되는 TherapeuticsBench 전체 프레임워크의 시작점이 될 것이라고 밝혔다.