중국 AI 기업 스텝펀(StepFun)이 에이전트 작업에 초점을 맞춘 멀티모달 모델 스텝 3.7 플래시(Step 3.7 Flash)를 공개했다. 이 모델은 1천980억(198B) 파라미터 규모의 희소 전문가혼합(MoE·여러 전문 신경망 중 일부만 작동시키는 구조) 비전언어 모델로, 1천960억 파라미터 언어 백본과 18억 파라미터 비전 인코더(ViT)를 결합해 이미지를 직접 이해한다. 텍스트만 처리하던 이전 버전 스텝 3.5 플래시와 달리 네이티브 시각 입력을 새로 지원하며, 도구 사용 신뢰성도 끌어올렸다.
스텝 3.7 플래시는 추론 시 토큰당 약 110억(11B) 파라미터만 활성화한다. MoE 구조에서는 전체 신경망이 아니라 일부 전문가 모듈만 작동하므로, 총 1천980억 파라미터를 유지하면서도 연산량은 110억 규모 모델에 가깝게 낮춘다. 컨텍스트 창은 25만6천(256k) 토큰, 처리 속도는 초당 최대 400토큰이며, 개발자가 낮음·중간·높음의 세 단계 추론 깊이를 선택해 응답 속도와 사고 정밀도를 조절할 수 있다. 가중치는 아파치 2.0 라이선스로 BF16·FP8·NVFP4·GGUF 형식을 통해 공개됐다.
코딩 성능에서 스텝 3.7 플래시는 SWE-Bench Pro에서 56.26%를 기록해 이전 버전(51.3%)보다 약 5%포인트 올랐고, 터미널벤치(Terminal-Bench) 2.1에서는 53.37%에서 59.55%로 개선됐다. 다양한 실행 환경에서의 일관성도 높아져, 스텝 3.5 플래시가 43~73%로 넓게 출렁이던 성능 편차가 64.5~71.5%로 좁혀졌다. 또한 어드바이저 모드(Advisor Mode)를 켜면 대부분의 작업은 저비용 실행 단계에 머물고 계획 수립이나 반복 실패 복구 같은 변곡점에서만 더 큰 모델을 호출하는데, 스텝펀은 이 방식으로 SWE-Bench Verified에서 클로드 오퍼스 4.6 성능의 97%를 과제당 9분의 1 비용(0.19달러 대 1.76달러)에 도달한다고 자체 측정치를 밝혔다.
중국 AI 기업들은 미국의 첨단 반도체 수출 통제 속에서도 개방형 가중치 전략으로 빠르게 추격하고 있다. 스텝 3.7 플래시가 아파치 2.0으로 공개돼 누구나 상업적으로 활용·수정할 수 있다는 점은, 한국 개발자와 기업이 자체 코딩 에이전트나 검색 워크플로를 구축할 때 비용 부담을 크게 줄이는 선택지가 된다. 다만 스텝펀이 제시한 비용·성능 수치는 회사 내부 평가에 기반한 것으로, 실제 운영 환경에서의 검증은 사용자 몫으로 남는다.
스텝펀은 시각 도구와 비텍스트 도구를 명시적 훈련 없이도 결합하는 행동이 테스트 중 관찰됐다고 전했다. 예컨대 프런트엔드 코드를 생성한 뒤 그래픽 인터페이스로 결과를 직접 렌더링해 점검하고 다시 수정하는 식인데, 회사는 이를 창발적 복합 도구 사용으로 설명했다. 입력 토큰 100만 개당 0.2달러(캐시 미적중), 출력 토큰 100만 개당 1.15달러의 가격 정책과 함께 가중치가 공개되면서, 개방형 모델 진영의 에이전트 경쟁은 더 치열해질 전망이다.


