미니맥스, 차세대 'M3' 예고… 희소 어텐션으로 추론 15.6배 빨라진다

미니맥스, 차세대 ‘M3’ 예고… 희소 어텐션으로 추론 15.6배 빨라진다

중국 인공지능(AI) 기업 미니맥스가 초장문 문맥 처리와 에이전트 추론 속도를 대폭 개선한 차세대 ‘희소 어텐션(Sparse Attention)’ 기술을 공개하며 새 대규모 언어모델(LLM) ‘M3’ 시리즈 출시를 예고했다. 미니맥스는 차세대 모델 M3에 적용될 새 어텐션 구조를 선보이며, 막대한 연산 부담을 줄이면서도 장기 추론 성능을 유지하는 데 초점을 맞췄다고 밝혔다.

새롭게 개발 중인 ‘미니맥스 희소 어텐션(MSA)’ 기술은 100만 토큰 길이의 문맥 환경에서 기존 모델 대비 최대 15.6배 빠른 응답(디코딩) 속도를 구현한다. 입력 데이터를 처리하는 단계에서도 최대 9.7배 속도 향상이 가능하다고 회사는 설명했다. 초장문을 다루는 AI 에이전트 시대를 겨냥한 기술 전환이라는 평가가 나온다.

Datacenter — 출처: Wikimedia Commons / Public domain

기존 LLM은 문맥이 길어질수록 연산량이 기하급수적으로 늘어나는 ‘쿼드러틱 스케일링’ 문제를 안고 있었다. 모든 단어가 다른 모든 단어와 관계를 계산해야 하는 구조 탓에, 문서가 길어질수록 메모리와 연산 비용이 폭발적으로 증가한다. 이 때문에 수십만~수백만 토큰 규모의 데이터를 처리하면 속도 저하와 비용 문제가 심각하게 불거졌다.

미니맥스는 직전 모델 M2 개발 당시 슬라이딩 윈도우 기반의 경량 어텐션 등 여러 저비용 방식을 실험했지만, 장거리 추론과 다단계 사고 성능이 크게 떨어진다고 보고 결국 전체(full) 어텐션을 유지했다. 실제 내부 평가에서 효율형 구조는 12만 8000 토큰 장문 테스트 점수가 90점대에서 72점까지 급락했다. M3에서는 새 희소 어텐션으로 효율과 성능을 동시에 잡겠다는 구상이다.

MSA는 기존 희소 어텐션과 달리 압축하지 않은 키-값(Key-Value) 데이터를 바탕으로 블록 단위 선택 방식을 적용해, 경량화 과정에서 발생하던 정보 손실과 캐시 문제를 해결했다는 설명이다. 특히 답변을 한 단어씩 만들어내며 이전 문맥을 반복 계산해 속도가 느려지는 ‘디코딩 단계’의 병목을 크게 줄였다. 국내 AI 서비스 기업으로서도 추론 효율을 좌우하는 어텐션 구조의 변화는 비용과 직결되는 주목할 대목이다.