중국 AI 스타트업 스텝펀(StepFun)이 총 1980억(198B) 파라미터 규모의 희소 혼합 전문가(MoE, Mixture-of-Experts) 비전-언어 모델 ‘Step 3.7 Flash’를 아파치 2.0(Apache 2.0) 라이선스 오픈웨이트로 공개했다. 소프트웨어 엔지니어링 벤치마크 SWE-bench Verified에서 74.4%를 기록하고, 입력 토큰 100만 개당 0.20달러(출력 1.15달러)의 가격을 책정해 서구권 중급 모델 대비 낮은 추론 비용을 내세웠다.
Step 3.7 Flash는 전체 파라미터 198B 중 1회 추론 시 약 11B만 활성화하는 MoE 구조를 채택했다. 전문가(expert) 288개 중 8개가 매 포워드 패스에 관여하는 방식으로, 대규모 파라미터를 유지하면서도 실제 연산 부담을 최소화한다. 1.8B 파라미터의 비전 인코더를 내장해 이미지와 영상을 함께 처리하는 멀티모달(multimodal) 구성이며, 컨텍스트 창(context window)은 최대 25만 6000(256K) 토큰을 지원한다. 추론 깊이는 저·중·고(low/medium/high) 세 단계로 조절 가능해 속도와 정확도 사이의 균형을 태스크에 따라 선택할 수 있다. 코딩 에이전트 벤치마크에서는 SWE-bench Verified 74.4%, SWE-bench Pro 56.26%, 도구 활용 종합 평가인 τ²-bench(타우 스퀘어 벤치)에서 98% 이상을 기록했다. 엔비디아 호퍼(Hopper) GPU 환경에서 NeMo 파인튜닝 기준 초당 600 토큰을 처리하는 속도도 확인됐다.

배포 경로는 엔비디아 NIM(NVIDIA NIM, 컨테이너형 추론 마이크로서비스), 허깅페이스(Hugging Face), 깃허브(GitHub)를 통해 제공되며, SGLang·TensorRT-LLM·vLLM 등 주요 오픈소스 추론 프레임워크와도 호환된다. 엔비디아는 자사 블로그를 통해 NVFP4 양자화(quantization) 체크포인트도 함께 공개했다고 밝혔다. OpenAI 호환 API 규격을 지원해 기존 파이프라인 교체가 용이하다는 점도 기업 채택 문턱을 낮추는 요인으로 꼽힌다. Apache 2.0 라이선스는 상업적 활용과 파생 모델 개발을 모두 허용한다.
Step 3.7 Flash는 최근 중국 오픈웨이트 모델들이 성능-가격 경쟁력에서 서구권 상용 모델과 직접 비교 가능한 수준에 도달하고 있음을 보여주는 사례다. SWE-bench Verified 74.4%는 코딩 에이전트 분야의 주요 준거 수치로 통용되며, 클로드(Claude)·GPT 계열 유료 API와 대비되는 낮은 단가는 추론 비용이 운영비의 상당 부분을 차지하는 서비스에서 직접적인 대안으로 검토될 수 있다. 한국 AI 서비스 기업과 개발자 입장에서는 코딩 자동화·문서 요약·멀티모달 검색 등 추론 집약 워크플로우에 이 모델을 자체 호스팅하거나 API 방식으로 통합해 운영 비용을 절감하는 경로를 즉시 검토할 수 있다. 오픈웨이트 공개로 한국어 파인튜닝 모델 개발 가능성도 열렸다.


