비드래프트 Darwin-398B, GPQA Diamond 과학 추론 벤치마크 정확도 90.9%로 최상위권

국내 AI 기술기업 비드래프트가 자체 개발한 과학 추론 특화 대규모 언어 모델(LLM) Darwin-398B-JGOS가 글로벌 AI 과학 추론 벤치마크 GPQA Diamond에서 정확도 90.9%를 기록했다고 밝혔다. 이 모델은 생물학·물리학·화학 분야의 고난도 문항 198개 중 180개를 맞혔으며, 허깅페이스(Hugging Face) 공인 리더보드 기준 최상위권에 위치하고 있다. 다수결 투표(Self-Consistency)와 같은 별도 성능 보정 기법 없이 단일 그리디(Greedy) 디코딩 방식만으로 달성한 수치라는 점에서 모델 본연의 추론 능력을 보여준다는 평가다.

Darwin-398B-JGOS는 비드래프트의 독자 AI 모델 진화 플랫폼 Darwin V9을 기반으로 개발됐다. 약 4000억 개 파라미터 규모의 MoE(Mixture-of-Experts, 전문가 혼합) 구조를 채택했으며, 실제 추론 시에는 약 170억 개의 활성 파라미터만 사용해 연산 효율을 높였다. Darwin V9의 핵심 특징은 처음부터 재학습하는 방식이 아니라 기존에 훈련된 여러 모델의 우수한 신경망 구간을 선별·재조합하는 방법론이다. 추론·코딩·언어 등 각 역량에 특화된 모듈을 결합하는 방식으로 학습 비용을 낮추면서도 전문성을 확보한다.

비드래프트는 국내 시장에서도 성과를 이어가고 있다. Darwin 기술 기반의 한국어 LLM JGOS-31B-Citizen이 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 운영하는 K-AI 리더보드에서 종합 1위를 기록했다. Darwin 기반 및 파생 모델은 현재 700종 이상으로 확대됐으며 누적 다운로드 수는 100만 회에 근접한다. 비드래프트는 서울AI허브 입주기업으로 정부 GPU 지원 사업과 정보통신산업진흥원(NIPA)의 AI 컴퓨팅 활용 사업에 참여해 연구 인프라를 확장 중이다. 회사는 이번 성과를 발판으로 과학 연구, 신약 개발, 산업 특화 AI, 공공 서비스 등으로 기술 적용 범위를 넓혀갈 계획이다.