중국 전자기업 샤오미(Xiaomi)가 자체 AI 모델 미모(MiMo)와 타일RT(TileRT) 런타임 기술을 결합해 1조 파라미터 규모 LLM(대규모 언어 모델)에서 초당 1,000토큰 이상(최대 1,200 TPS)의 추론 속도를 상용 GPU 8개 노드로 달성했다고 발표했다. 전용 AI 가속칩 없이 범용 GPU 서버로 이 성능을 구현한 점이 핵심이며, 표준 모델 대비 3배 비용으로 약 10배 빠른 속도를 낸다고 밝혔다.
이 성능을 가능케 한 기술은 세 가지 핵심 요소로 구성된다. 첫째는 FP4 양자화(quantization)로, MXFP4 형식을 MoE(전문가 혼합) 전문가 레이어에만 선택 적용해 메모리·대역폭 부담을 낮추면서 다른 모듈은 FP8 정밀도를 유지한다. 둘째는 디플래시(DFlash) 추측 디코딩으로, 블록 단위 병렬 예측을 통해 소형 드래프트 모델이 한 번에 여러 토큰을 생성하는 방식이다. 코딩 작업에서 평균 6.3개, 추론 작업에서 5.56개의 토큰을 한 번에 수용하는 수준이다. 셋째는 TileRT 런타임으로, 마이크로초 단위 작동 최적화와 GPU 상 지속적 커널 실행 및 병렬 처리를 통해 전반적인 연산 효율을 높인다.
이 기술의 실용적 활용 분야는 병렬 AI 추론, 코딩 에이전트, 실시간 거래 신호 처리, 대화형 프로토타이핑 등 응답 속도가 중요한 영역이다. AI 추론 비용 절감은 스타트업과 중견 기업이 대형 모델을 도입하는 데 있어 가장 큰 장벽 중 하나였던 만큼, 전용 칩 없이 상용 하드웨어로 고성능을 구현하는 방법론은 업계 전반의 관심을 받고 있다.
샤오미의 이번 발표는 AI 추론 인프라 시장에서 비용 효율성 경쟁이 가속화되고 있음을 보여 준다. 엔비디아(NVIDIA)의 고사양 GPU가 AI 학습 시장을 지배하는 가운데, 추론 단계에서는 소프트웨어 최적화와 하드웨어 활용 방식의 혁신을 통해 비용 대비 성능을 끌어올리려는 시도가 주요 AI 플레이어들 사이에서 이어지고 있다. 샤오미가 스마트폰·가전 기기 제조사에서 AI 인프라 기술 기업으로 영역을 확장하는 행보의 일환으로도 해석된다.














