• AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
STORIUM
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의
No Result
View All Result
STORIUM
No Result
View All Result

미니맥스 M3, MSA 아키텍처로 100만 토큰 컨텍스트와 멀티모달 구현

STORIUM 편집부 작성: STORIUM 편집부
2026년 06월 02일 11시 12분
Home 반도체·인프라
Share on FacebookShare on Twitter

중국 AI 기업 미니맥스(MiniMax)가 6월 1일 M3 모델을 공식 출시했다. M3는 새로운 희소 어텐션 아키텍처인 MSA(MiniMax Sparse Attention)를 채택해 100만 토큰 컨텍스트 창을 구현하면서도 연산 효율을 획기적으로 개선했다. 기존 풀 어텐션 방식이 토큰 수에 따라 연산 비용이 제곱으로 증가하는 것과 달리, MSA는 KV 캐시(key-value cache)를 블록으로 나눠 필요한 블록만 선별해 처리한다. 100만 토큰 길이에서 토큰당 연산량은 직전 세대 M2 대비 20분의 1이며, 프리필(prefill) 단계는 9배 이상, 디코딩 단계는 15배 이상 빨라졌다.

코딩 성능 벤치마크에서 M3는 소프트웨어 엔지니어링 기준 지표인 SWE-Bench Pro에서 59.0%를 기록해 GPT-5.5와 제미나이(Gemini) 3.1 Pro를 앞섰다. 미니맥스가 수행한 내부 실험에서 M3는 LLM 파인튜닝 논문을 약 12시간 동안 자율적으로 재현해 18개 커밋과 23개 실험 그래프를 생성했다. GPU 커널 최적화 실험에서는 NVIDIA Hopper GPU의 FP8 행렬 연산 하드웨어 활용률을 7.6%에서 71.3%로 9.4배 향상시켰으며, 최고 성능은 145번째 시도에서 나왔다. 컴퓨터 자율 조작 벤치마크 OSWorld-Verified에서는 70.06%의 작업 완료율을 달성했다. 나아가 M3는 텍스트·이미지·동영상을 초기 훈련 단계부터 함께 학습한 네이티브 멀티모달 구조를 채택했으며, 100조 토큰 규모 데이터로 훈련됐다.

Detailed view of code and file structure in a software development environment.
사진: Daniil Komov / Pexels

MSA는 오퍼레이터 수준에서도 혁신을 포함한다. KV 블록을 외부 루프로 삼아 해당 블록을 필요로 하는 쿼리들을 일괄 처리하는 ‘KV 아우터 개더(KV outer gather Q)’ 방식으로, 블록당 메모리 접근이 한 번으로 줄고 연속적인 메모리 접근 패턴이 가능해진다. 미니맥스는 Flash-Sparse-Attention 등 오픈소스 구현 대비 4배 이상 빠른 실행 속도를 보고했다. 한국 AI 연구자와 기업 개발자들은 모델 가중치 공개 시점(출시 후 10일 이내)을 주목할 필요가 있다. 100만 토큰 컨텍스트와 코딩·멀티모달 성능을 갖춘 오픈웨이트 모델은 자체 인프라 기반의 에이전트 개발과 장기 문서 처리 애플리케이션에 활용 가능성이 크다.

M3의 API는 현재 이용 가능하며, 자체 에이전트 도구인 미니맥스 코드(MiniMax Code)와 미니맥스 토큰 플랜을 통해서도 바로 쓸 수 있다. 미니맥스는 모델 가중치와 기술 보고서를 출시 후 10일 이내에 공개하겠다고 밝혔다. M3는 M2.7에 이은 M 시리즈의 다음 모델로, 프런티어급 코딩 성능과 100만 토큰 컨텍스트, 네이티브 멀티모달 입력을 단일 아키텍처에 결합한 첫 오픈웨이트 모델이라는 점을 내세운다.

Tags: LLMMiniMaxM3MSA멀티모달미니맥스에이전틱코딩희소어텐션
STORIUM 편집부

STORIUM 편집부

STORIUM 편집부 공식 계정

Next Post
Close-up image of an RTX 2080 GPU, highlighting modern and sleek design.

엔비디아, AI 클라우드 파트너십 6개 대륙으로 확대

답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

STORIUM은 트렌드와 인사이트를 전하는 종합 뉴스 매체입니다. 정확성, 균형, 맥락의 편집 원칙으로 신뢰받는 뉴스를 전합니다.

카테고리

  • AI 모델·연구
  • AI 서비스·툴
  • 반도체·인프라
  • 빅테크·기업
  • 산업 적용
  • 스타트업·투자
  • 정책·윤리

태그

AI규제 AI보안 AI안전 AI에이전트 AI 에이전트 AI윤리 AI인프라 Anthropic AWS ChatGPT Claude Co-Scientist Gemini GPU IPO LLM MCP NVIDIA OpenAI 강화학습 거버넌스 구글 데이터센터 로봇 마이크로소프트 멀티모달 멀티에이전트 메타 반도체 벤치마크 보안 사이버보안 스타트업 아마존 앤트로픽 에이전트 엔비디아 엔터프라이즈 오픈AI 오픈소스 자율주행 제미나이 클라우드 클로드 허깅페이스

최근 뉴스

White robot toy casting a shadow in a dark studio setting, highlighting artificial intelligence.

피규어AI 휴머노이드, 일주일 넘게 택배 처리 라이브

2026년 06월 02일 15시 48분
A robotic helper cracks an egg into a bowl in a contemporary kitchen setting, showcasing automation in cooking.

집안일 영상이 로봇 학습 데이터로… 1인칭 영상 긱 노동 시장 부상

2026년 06월 02일 15시 26분
  • 소개
  • 문의
  • 광고문의
  • 개인정보처리방침
  • 이용약관
  • 청소년보호정책

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.

No Result
View All Result
  • AI 모델·연구
  • 빅테크·기업
  • 반도체·인프라
  • 산업 적용
  • AI 서비스·툴
  • 정책·윤리
  • 스타트업·투자
  • 문의

© 2026 STORIUM. All rights reserved. 트렌드와 인사이트.