VibeThinker-3B, AIME26 94.3점…DeepSeek V3.2(671B)급 수학·코딩 추론 성능

중국 시나웨이보(Sina Weibo) 연구팀이 30억 파라미터 소형 추론 모델 VibeThinker-3B를 MIT 라이선스로 공개했다. 이 모델은 AIME26(미국 수학올림피아드 초청 시험 2026) 벤치마크에서 94.3점을 기록해 6710억 파라미터 규모의 DeepSeek V3.2(94.2점), 1조 파라미터 규모의 Kimi K2.5(93.3점)와 거의 동일한 수준을 보였다. 수학·코딩·STEM 분야의 검증 가능한 추론 과제에 특화된 전문 모델로, BF16 가중치 기준 약 6GB라 단일 GPU에서 구동할 수 있다.

VibeThinker-3B는 코딩 특화 베이스 모델인 Qwen2.5-Coder-3B 위에 지도 미세조정(SFT)과 강화학습(RL), 자기증류(Self-Distillation)를 순차로 쌓는 방식으로 구성됐다. 연구팀은 이를 ‘스펙트럼-투-시그널 파이프라인(Spectrum-to-Signal Pipeline, SSP)’이라 명명했다. SSP는 SFT로 다양한 올바른 추론 경로(‘스펙트럼’)를 쌓은 뒤, RL이 그 중 정확한 경로(‘시그널’)를 증폭하는 구조다. 커리큘럼 기반 SFT, MGPO(MaxEnt-Guided Policy Optimization) 기반 추론 RL, 오프라인 자기증류, 지시 준수를 높이는 Instruct RL의 네 단계로 진행된다.

이미지 출처: 원문 (VibeThinker-3B: A 3B Dense Reasoning Model Built on Qwen2.5-Coder-3B With the Spectrum-to-Signal Post-Training Pipeline)

벤치마크 성능은 여러 지표에서 확인된다. AIME26 94.3점 외에 HMMT25 89.3점, IMO-AnswerBench 76.4점, LiveCodeBench v6 80.2점(Pass@1), GPQA-Diamond 70.2점을 기록했다. 테스트 시 스케일링 기법인 CLR(Claim-Level Reliability Assessment)을 적용하면 AIME26 97.1점, HMMT25 95.4점으로 올라간다. CLR은 문제당 32개의 추론 경로를 생성하고 각 경로에서 5개의 핵심 주장을 추출해 모델이 자체 검증하는 방식으로, 파라미터 추가 없이 계산량으로 성능을 높인다. 실제 LeetCode 대회 문제 128문제 중 123문제를 파이썬 첫 제출에 통과시켜 96.1% 수락률을 기록하기도 했다. 다만 GPQA-Diamond처럼 폭넓은 지식이 요구되는 벤치마크에서는 대형 모델과의 격차가 뚜렷하다.

이 연구의 의의는 ‘규모 대신 훈련 방법론’이라는 명제를 구체적 숫자로 입증했다는 데 있다. DeepSeek V3.2·Kimi K2.5처럼 수백억~수천억 파라미터 모델이 상위 벤치마크를 점령한 환경에서, 30억 파라미터로 경쟁력 있는 수학·코딩 추론이 가능하다는 것을 실증했다. MIT 라이선스 공개라 상업적 사용 제한이 없어 스타트업이나 연구 기관이 비용 효율적인 추론 에이전트의 기반 모델로 즉시 활용할 수 있다. 단일 GPU에서 구동되는 6GB 규모는 온프레미스 배포를 선호하는 금융·보안 분야에도 매력적이며, SSP처럼 포스트 트레이닝만으로 대형 모델에 근접한 추론 성능을 내는 방법론이 확산되면 리소스가 제한된 연구 그룹도 경쟁력 있는 추론 모델을 개발할 수 있는 문턱이 낮아진다는 전망이 나온다.