젯브레인스, 소프트웨어 엔지니어링 특화 AI 모델 Mellum2 오픈소스 공개

개발 도구 기업 젯브레인스(JetBrains)가 소프트웨어 엔지니어링에 특화된 AI 모델 Mellum2를 아파치 2.0 라이선스로 오픈소스 공개했다. Mellum2는 전작인 완성 중심의 40억 파라미터 밀집형 모델을 계승하며, 코드 생성·편집, 디버깅, 다단계 추론, 도구 호출, 에이전트 코딩, 대화형 프로그래밍 지원 등 폭넓은 기능을 제공하는 범용 소프트웨어 엔지니어링 모델로 거듭났다.

Mellum2는 MoE(Mixture-of-Experts, 전문가 혼합) 아키텍처를 채택해 전체 파라미터는 120억 개이나 토큰당 실제 활성화되는 파라미터는 25억 개에 불과하다. 64개의 전문가 중 토큰마다 8개만 활성화하는 방식으로, 25억 파라미터 밀집형 모델 수준의 연산량을 유지하면서도 높은 전문성을 갖출 수 있다. 컨텍스트 길이는 최대 131,072 토큰이며 GQA(그룹 쿼리 어텐션)와 슬라이딩 윈도우 어텐션을 함께 적용했다. 사전학습은 다양한 웹 콘텐츠에서 코드·수학 데이터로 비중을 점진적으로 이동하는 3단계 커리큘럼을 통해 총 약 10.6조 토큰으로 진행됐다. 이후 베이스 모델의 컨텍스트 윈도우를 128K 토큰으로 확장한 뒤 지도 미세조정(SFT)과 검증 가능한 보상을 활용한 강화학습(RLVR)을 거쳤다. 젯브레인스는 사전학습 체크포인트부터 RL 튜닝 완료 모델까지 총 6개 체크포인트를 공개했다. Instruct 변형은 체인오브소트(Chain-of-Thought) 없이 즉각적인 응답을 제공해 낮은 지연 시간이 요구되는 작업에 적합하며, Thinking 변형은 복잡한 디버깅이나 다단계 계획 수립 시 명시적 추론 과정을 출력한다.

벤치마크 결과는 젯브레인스가 자체 공개한 수치로, 4B~14B 오픈웨이트 모델군을 비교 대상으로 삼았다. 코딩 평가에서 EvalPlus(HumanEval+와 MBPP+의 평균) 78.4점으로 Qwen3.5 4B(69.4점)·9B(71.8점)를 앞섰다. 도구 사용 벤치마크인 BFCL v3에서는 66.3점을 기록해 Qwen3.5 4B(64.1점)를 소폭 상회했다. 반면 지식 이해 지표인 MMLU-Redux에서는 78.1점으로 동급 모델 대비 낮은 편이며, LiveCodeBench v6에서도 Qwen3.5 9B에 비해 격차가 있어 범용 추론보다 코드·도구 특화 영역에서 강점이 두드러진다.

젯브레인스는 Mellum2를 독립형 프런티어 모델이 아닌 더 큰 AI 시스템 안에서 빠르고 효율적인 역할을 담당하는 ‘포컬 모델(focal model)’로 포지셔닝한다. 멀티모델 파이프라인의 라우팅·오케스트레이션, 낮은 지연 시간이 필요한 RAG(검색 증강 생성) 파이프라인, 복잡한 에이전트 워크플로우의 반복적 서브태스크 처리, 자체 인프라에서의 프라이빗 로컬 배포 등이 핵심 활용 시나리오로 제시됐다. 아파치 2.0 라이선스 적용으로 상업적 자체 호스팅이 제한 없이 허용된다는 점에서 기업 도입 시 코드·데이터의 외부 노출을 차단할 수 있다는 것이 주목된다.