미니맥스 M3, MSA 아키텍처로 100만 토큰 컨텍스트와 멀티모달 구현

중국 AI 기업 미니맥스(MiniMax)가 6월 1일 M3 모델을 공식 출시했다. M3는 새로운 희소 어텐션 아키텍처인 MSA(MiniMax Sparse Attention)를 채택해 100만 토큰 컨텍스트 창을 구현하면서도 연산 효율을 획기적으로 개선했다. 기존 풀 어텐션 방식이 토큰 수에 따라 연산 비용이 제곱으로 증가하는 것과 달리, MSA는 KV 캐시(key-value cache)를 블록으로 나눠 필요한 블록만 선별해 처리한다. 100만 토큰 길이에서 토큰당 연산량은 직전 세대 M2 대비 20분의 1이며, 프리필(prefill) 단계는 9배 이상, 디코딩 단계는 15배 이상 빨라졌다.

코딩 성능 벤치마크에서 M3는 소프트웨어 엔지니어링 기준 지표인 SWE-Bench Pro에서 59.0%를 기록해 GPT-5.5와 제미나이(Gemini) 3.1 Pro를 앞섰다. 미니맥스가 수행한 내부 실험에서 M3는 LLM 파인튜닝 논문을 약 12시간 동안 자율적으로 재현해 18개 커밋과 23개 실험 그래프를 생성했다. GPU 커널 최적화 실험에서는 NVIDIA Hopper GPU의 FP8 행렬 연산 하드웨어 활용률을 7.6%에서 71.3%로 9.4배 향상시켰으며, 최고 성능은 145번째 시도에서 나왔다. 컴퓨터 자율 조작 벤치마크 OSWorld-Verified에서는 70.06%의 작업 완료율을 달성했다. 나아가 M3는 텍스트·이미지·동영상을 초기 훈련 단계부터 함께 학습한 네이티브 멀티모달 구조를 채택했으며, 100조 토큰 규모 데이터로 훈련됐다.

Detailed view of code and file structure in a software development environment. — 사진: Daniil Komov / Pexels

MSA는 오퍼레이터 수준에서도 혁신을 포함한다. KV 블록을 외부 루프로 삼아 해당 블록을 필요로 하는 쿼리들을 일괄 처리하는 ‘KV 아우터 개더(KV outer gather Q)’ 방식으로, 블록당 메모리 접근이 한 번으로 줄고 연속적인 메모리 접근 패턴이 가능해진다. 미니맥스는 Flash-Sparse-Attention 등 오픈소스 구현 대비 4배 이상 빠른 실행 속도를 보고했다. 한국 AI 연구자와 기업 개발자들은 모델 가중치 공개 시점(출시 후 10일 이내)을 주목할 필요가 있다. 100만 토큰 컨텍스트와 코딩·멀티모달 성능을 갖춘 오픈웨이트 모델은 자체 인프라 기반의 에이전트 개발과 장기 문서 처리 애플리케이션에 활용 가능성이 크다.

M3의 API는 현재 이용 가능하며, 자체 에이전트 도구인 미니맥스 코드(MiniMax Code)와 미니맥스 토큰 플랜을 통해서도 바로 쓸 수 있다. 미니맥스는 모델 가중치와 기술 보고서를 출시 후 10일 이내에 공개하겠다고 밝혔다. M3는 M2.7에 이은 M 시리즈의 다음 모델로, 프런티어급 코딩 성능과 100만 토큰 컨텍스트, 네이티브 멀티모달 입력을 단일 아키텍처에 결합한 첫 오픈웨이트 모델이라는 점을 내세운다.

다만 공개된 수치 대부분이 미니맥스 자체 실험과 발표에 근거한다는 점은 감안해야 한다. 벤치마크 성적과 속도 개선 폭은 가중치와 기술 보고서가 공개된 뒤 제3자 재현으로 검증될 문제다. 그럼에도 이번 발표가 주목받는 이유는 분명하다. 100만 토큰 컨텍스트, 프런티어급 코딩 성능, 네이티브 멀티모달을 오픈웨이트로 묶어 내놓는 사례 자체가 드물고, 이런 모델이 실제로 공개되면 클라우드 API에 의존하지 않고 자체 인프라에서 장문 처리와 에이전트를 구축하려는 조직에게 선택지가 하나 늘기 때문이다. 공개 시한으로 제시된 열흘이 검증의 출발점이 될 것이다.