MiMo-v2.5-Pro-UltraSpeed - infra 架构解读

Xiaomi MiMo Blog入库于 2026/6/9|

作者:dodo

原文https://mimo.xiaomi.com/blog/mimo-tilert-1000tps 补充技术原文https://www.tilert.ai/blog/breaking-1000-tps.html 发布时间:2026-06-09 解读视角:大模型基础建设架构设计 沉淀时间:2026-06-09 标签推理优化 MoE 量化 投机解码 系统级协同设计 高性能推理 小米


一句话核心

小米 MiMo 团队与 TileRT 系统团队通过模型-系统极致协同设计(Codesign),在单个标准 8-GPU 商用节点上实现了千亿级 MoE 模型(1T 参数)首破 1000 tokens/s 的推理速度——核心武器是 FP4 专家量化 + DFlash 块级并行投机解码 + TileRT 持久引擎执行模型的三位一体组合,为大模型基建进入"速度即智能"新范式提供了完整的工程参考。


文章背景与问题域

为什么 1T 参数模型的推理速度是个硬问题?

在 1T 参数规模下,传统推理框架面临三层物理约束叠加:

  1. 内存带宽墙:1T 参数即便以 FP8 存储也需要约 1TB 显存,每次解码的 token 生成本质是一次全参数扫描,带宽完全成为瓶颈。
  2. 算子边界碎片化:传统框架将模型分解为数千个独立算子,每个 kernel 启动都有 host 侧 launch 延迟 + 硬件同步 + 全局内存往返开销。在低 TPS 时这些开销被淹没,在追求 1000 TPS 时每个算子的生命周期已被压缩到微秒级,这些"执行间隙"(Execution Gaps)成为决定性瓶颈。
  3. 自回归串行约束:标准自回归解码每次 forward pass 只生成 1 个 token,理论上无法突破单次 forward 延迟的倒数上限。

行业通用答案是依赖专用硬件(Cerebras Wafer-Scale、Groq 片上 SRAM 架构),但代价是放弃商用 GPU 生态。MiMo + TileRT 选择了一条不同的路:在商用 GPU 上通过模型-系统协同设计突破硬件极限


核心架构 / 方案解析

整个方案可以理解为两跳突破

第一跳:TileRT 执行模型革命(数十 TPS → 数百 TPS)
  └─ 持久引擎 Kernel:消除算子边界的执行间隙
  └─ Tile 级流水线:数据搬运与张量计算极致 overlap
  └─ Warp 专化 + 异构 Worker:GPU → 异构流水协同执行系统

第二跳:模型-系统协同设计(数百 TPS → 1000+ TPS)
  ├─ MoE Expert FP4 量化(模型侧:解决带宽瓶颈)
  │   └─ QAT 保能力 + 仅量化 Expert 参数(>95% 参数量)
  └─ DFlash 块级掩码并行投机解码(模型侧:突破自回归串行)
      └─ SWA 草稿模型 + Muon 二阶优化器 + 自蒸馏
      └─ TileRT 针对性编译引擎(系统侧:让算法跑满硬件)

数据流概览

用户请求 (1 token/请求)
  │
  ▼
DFlash 草稿模型 (SWA, 单次 forward → 预测整个掩码块 8 tokens)
  │ 并行生成候选块
  ▼
MiMo-V2.5-Pro 主模型验证 (FP4 量化 MoE Expert)
  │ 拒绝采样,平均接受 4.29~6.30 个 token
  ▼
TileRT 持久引擎输出 (1000+ tokens/s)

大模型基建视角专项解读

1. 系统架构与分层设计

TileRT 的根本创新在于将执行模型从"算子调度图"升级为"持久流水引擎"。传统框架(vLLM、TensorRT-LLM 等)的执行单元是算子,调度粒度是 kernel launch;TileRT 的执行单元是Tile,整个计算流水持续驻留在 GPU 内部,消除了算子边界处的同步开销。

分层设计上:

  • Tile 层:数据搬运(Global Mem → Shared Mem → Register)与张量计算严格重叠。
  • Warp 专化层:不同 Warp 组承担通信、数据移动、张量计算各自专化角色,打破同构 lock-step 执行。
  • 异构 Worker 层:跨 SM 扩展,整个 GPU 成为异构协同流水系统而非同构并行计算设备。

2. 性能与资源优化:1000 TPS 的关键技术拆解

FP4 Expert 量化(解决带宽墙)

  • 采用 OCP MXFP4 格式(业界标准,已有硬件支持)
  • 关键洞察:MoE 架构中 Expert 参数占绝大多数(>95%),且对量化容忍度高;Attention、LayerNorm 等模块精度敏感,保留原始精度(FP8)
  • 通过 QAT(量化感知训练)弥补精度损失,实验表明能力与原始模型基本持平
  • 工程价值:FP4 相比 FP8 将带宽压力减半,直接解锁内存带宽瓶颈

DFlash 块级掩码并行投机解码(突破自回归串行)

传统投机解码的瓶颈在于草稿模型仍是自回归(串行生成候选),DFlash 的关键创新:

  • 草稿模型一次 forward 填充整个掩码块(8 个位置),彻底消除自回归草稿的串行约束
  • 草稿模型专用 SWA(滑动窗口注意力):每次预测计算量从"上下文长度线性"降为"常数",与 MiMo-V2 系列的 SWA 设计天然对齐
  • 训练时在 GPU 本地 shard 级做掩码信号采样,一条序列可产生数万个独立训练信号,避免跨设备通信
  • 使用 Muon 二阶优化器 + 模型自蒸馏保证轻量草稿模型的高接受率

实测接受长度:

场景平均接受长度效果说明
代码生成6.30 (max 7.14)8 个草稿 token 中接受 6-7 个
数学/推理5.56稳定高接受率
Agent4.29高不确定性场景仍有显著加速

微秒级瓶颈的系统级协同消除

在 1000 TPS 下,单个算子的生命周期压缩到微秒级,大量"非核心"算子暴露为瓶颈:

  • RMSNorm、RoPE、KV Cache 写入、硬件同步、元数据开销
  • Attention 层的真正瓶颈往往不是 Attention kernel 本身,而是周围这些碎片操作
  • MTP(Multi-Token Prediction)中每个额外 LM Head 约增加数十微秒,在 1000 TPS 频率下不可忽视

TileRT 针对 MiMo 的算法特性定制编译引擎:调优 DFlash 模块结构、滑动窗口大小、Attention Sink、接受长度与验证代价的平衡点。

3. 并发与调度模型

DFlash 的隐含并发哲学:将"串行草稿→串行验证"改为"并行块生成→批量验证",天然提升了推理系统的内部并发度。块大小限制为 8,是对"提高接受率 vs 降低验证开销 vs 提升并发度"三者的工程权衡。

资源公平性调度:针对稀缺高速推理资源,系统实现了基于队列的访问控制——每账号每天最多排队 10 次、每 session 上限 30 分钟、空闲超 5 分钟自动释放——这是实际生产中高价值资源调度的典型设计。

4. 可扩展性设计

方案的可扩展性体现在两个维度:

  1. 硬件无关性:通过模型-系统协同设计在商用 GPU 上达到专用硬件级别的推理速度,避免了绑定特定硬件加速器的风险。
  2. 架构通用性:DFlash + SWA 草稿模型的组合对 MoE 长上下文场景天然友好,随着 MiMo-V2.5(非 Pro 版本)的 UltraSpeed 支持跟进,方案已具备向更多模型扩展的能力。

5. 反常识点梳理

反常识点常规认知实际做法背后原因
速度本身就是智能速度是部署指标,与模型能力无关1000 TPS 使 Best-of-N/Tree Search 在相同时间内可运行数十条推理路径速度解锁了更深层的 Test-Time Scaling,直接提升推理质量
专用硬件才能极速推理千亿参数高速推理需要 Wafer-Scale 或片上 SRAM 专用芯片8 块商用 GPU 通过模型-系统协同设计突破 1000 TPS执行模型革命 + 算法协同可以替代专用硬件
投机解码草稿模型需要自回归草稿模型逐 token 预测是必要的串行约束DFlash 草稿模型一次 forward 填充整个掩码块掩码并行预测从根本上消除了草稿阶段的串行性
FP4 量化会严重损害推理能力FP4 精度过低,复杂推理/代码任务必然退化选择性仅量化 MoE Expert,配合 QAT,整体能力与原始模型持平MoE Expert 对量化容忍度高;非 Expert 模块保留高精度
系统瓶颈在核心计算 kernel推理系统优化 = 优化 GEMM 和 Attention kernel在 1000 TPS 下,RMSNorm/RoPE/KV Cache 写入等"非核心"操作成为主要瓶颈极低延迟下所有算子生命周期压缩到微秒级,无处隐藏碎片开销

工程模式提炼

模式名文章中的实现大模型基建启示
选择性精度分层量化MoE Expert 用 FP4,其余模块保持 FP8;通过 QAT 弥补精度损失量化策略应与模型架构特性绑定:参数密集且精度不敏感的组件激进量化,精度敏感路径保守保留。适用于任何 MoE/稀疏激活架构
块级掩码并行投机解码DFlash 草稿模型单次 forward 生成整个 mask block(8 tokens),消除草稿串行性凡是自回归串行路径,均可考虑用"并行预填充+批量验证"替代;关键设计参数是 block size(接受率 vs 验证开销的平衡点)
持久引擎消除执行间隙TileRT 将整个计算流水以单一 Persistent Engine 驻留 GPU,消除算子边界同步开销在追求极低延迟时,"算子粒度执行"本身是瓶颈。下一代推理框架应考虑 Tile/Pipeline 粒度的持久执行模型
异构 Warp 专化流水通信 Warp、数据移动 Warp、张量计算 Warp 分工协同,GPU 变为异构流水系统高性能推理 kernel 设计中,打破同构 lock-step 模型,引入 Warp Specialization 可显著提升硬件利用率
模型-系统协同设计(Codesign)模型设计(SWA、DFlash 结构)与系统实现(TileRT 编译引擎)深度绑定,联合调优至微秒级当系统已逼近硬件极限,继续提升必须打破模型/系统分层边界,联合设计模型架构与执行引擎。Speed Scaling 时代,Codesign 是必选项
SWA 草稿模型对齐主模型草稿模型使用 SWA,天然匹配主模型的 SWA 设计,实现"上下文长度无关的常数计算量"草稿模型架构应与主模型特性深度对齐,而非独立设计。SWA 草稿模型是长上下文场景投机解码的理想选择
高价值稀缺资源的队列调度每账号每日限排队 10 次、session 上限 30 分钟、5 分钟空闲自动释放稀缺高成本推理资源应配套明确的公平调度策略:限频+超时自动回收+优先级区分(企业/开发者优先),避免资源空占
GPU 本地 shard 级训练信号采样DFlash 训练时在 GPU 本地 shard 内采样掩码信号,一条序列产生数万训练信号,无跨设备通信长上下文训练中,将训练信号生成下推到设备本地可大幅提升数据效率,避免通信成为训练瓶颈

关键引用

"在相同的挂钟时间内,模型可以并行运行数十条推理路径(Best-of-N/Tree Search),在后台自动验证和自我修正——用原始速度创造思维深度,直接提升推理质量。"

"从数十 TPS 到 1000+ TPS,运作于完全不同维度的硬件现实。"

"当系统进入 1000+ TPS 领域,单个算子的生命周期被压缩到微秒级。在这个频率下,1 微秒的开销直接转化为端到端性能的百分比抖动。"

"速度本身就是新的 Scaling Law……推理速度不再只是基础设施指标,它直接决定推理深度、rollout budget、交互延迟、Agent 自主性,以及 Test-Time Scaling 的实际可行性。"

"过去的时代重心在模型 Scaling;即将到来的时代将同等重视 Speed Scaling。"


延伸思考

  1. Speed Scaling 与 Test-Time Scaling 的乘法效应:MiMo 的案例揭示了一个新的能力公式——相同计算预算下,推理速度提升 10x 等价于 Best-of-N 搜索深度增加 10x。这意味着推理优化投入的 ROI 可能高于继续增加模型参数。对于追求"最优单次对话质量"的产品,如何在基建层面设计支持 Best-of-N/Tree Search 的调度系统,是当前最值得投入的方向之一。

  2. Codesign 边界的工程组织挑战:MiMo × TileRT 的成功依赖于模型团队与系统团队的深度联合调优(从 DFlash block size 到 SWA 窗口大小到编译器 kernel 设计的每一个参数)。这种跨层协同在大厂内部面临组织边界问题——如何设计团队结构和协作机制,使 Model Research 团队和 Inference System 团队能够实现真正的 Codesign 而非接口对接,是大模型基建领域值得深入思考的工程组织命题。

  3. DFlash 的通用化潜力:DFlash 的核心是"一次 forward 并行填充掩码块",这一思路与 Diffusion LM、Masked Language Model 的训练范式天然兼容。在非自回归或半自回归生成领域,DFlash 类方法是否能成为标准加速组件?其接受率在一般对话(当前偏低)场景的提升空间,将决定该方法能否从"代码/推理专项加速"演进为通用推理加速技术。


延伸阅读