MiMo-v2.5-Pro-UltraSpeed - infra 架构解读

作者：dodo

原文：https://mimo.xiaomi.com/blog/mimo-tilert-1000tps 补充技术原文：https://www.tilert.ai/blog/breaking-1000-tps.html 发布时间：2026-06-09 解读视角：大模型基础建设架构设计 沉淀时间：2026-06-09 标签：推理优化 MoE 量化 投机解码 系统级协同设计 高性能推理 小米

一句话核心

小米 MiMo 团队与 TileRT 系统团队通过模型-系统极致协同设计（Codesign），在单个标准 8-GPU 商用节点上实现了千亿级 MoE 模型（1T 参数）首破 1000 tokens/s 的推理速度——核心武器是 FP4 专家量化 + DFlash 块级并行投机解码 + TileRT 持久引擎执行模型的三位一体组合，为大模型基建进入"速度即智能"新范式提供了完整的工程参考。

文章背景与问题域

为什么 1T 参数模型的推理速度是个硬问题？

在 1T 参数规模下，传统推理框架面临三层物理约束叠加：

内存带宽墙：1T 参数即便以 FP8 存储也需要约 1TB 显存，每次解码的 token 生成本质是一次全参数扫描，带宽完全成为瓶颈。
算子边界碎片化：传统框架将模型分解为数千个独立算子，每个 kernel 启动都有 host 侧 launch 延迟 + 硬件同步 + 全局内存往返开销。在低 TPS 时这些开销被淹没，在追求 1000 TPS 时每个算子的生命周期已被压缩到微秒级，这些"执行间隙"（Execution Gaps）成为决定性瓶颈。
自回归串行约束：标准自回归解码每次 forward pass 只生成 1 个 token，理论上无法突破单次 forward 延迟的倒数上限。

行业通用答案是依赖专用硬件（Cerebras Wafer-Scale、Groq 片上 SRAM 架构），但代价是放弃商用 GPU 生态。MiMo + TileRT 选择了一条不同的路：在商用 GPU 上通过模型-系统协同设计突破硬件极限。

核心架构 / 方案解析

整个方案可以理解为两跳突破：

第一跳：TileRT 执行模型革命（数十 TPS → 数百 TPS）
  └─ 持久引擎 Kernel：消除算子边界的执行间隙
  └─ Tile 级流水线：数据搬运与张量计算极致 overlap
  └─ Warp 专化 + 异构 Worker：GPU → 异构流水协同执行系统

第二跳：模型-系统协同设计（数百 TPS → 1000+ TPS）
  ├─ MoE Expert FP4 量化（模型侧：解决带宽瓶颈）
  │   └─ QAT 保能力 + 仅量化 Expert 参数（>95% 参数量）
  └─ DFlash 块级掩码并行投机解码（模型侧：突破自回归串行）
      └─ SWA 草稿模型 + Muon 二阶优化器 + 自蒸馏
      └─ TileRT 针对性编译引擎（系统侧：让算法跑满硬件）

数据流概览

用户请求 (1 token/请求)
  │
  ▼
DFlash 草稿模型 (SWA, 单次 forward → 预测整个掩码块 8 tokens)
  │ 并行生成候选块
  ▼
MiMo-V2.5-Pro 主模型验证 (FP4 量化 MoE Expert)
  │ 拒绝采样，平均接受 4.29~6.30 个 token
  ▼
TileRT 持久引擎输出 (1000+ tokens/s)

大模型基建视角专项解读

1. 系统架构与分层设计

TileRT 的根本创新在于将执行模型从"算子调度图"升级为"持久流水引擎"。传统框架（vLLM、TensorRT-LLM 等）的执行单元是算子，调度粒度是 kernel launch；TileRT 的执行单元是Tile，整个计算流水持续驻留在 GPU 内部，消除了算子边界处的同步开销。

分层设计上：

Tile 层：数据搬运（Global Mem → Shared Mem → Register）与张量计算严格重叠。
Warp 专化层：不同 Warp 组承担通信、数据移动、张量计算各自专化角色，打破同构 lock-step 执行。
异构 Worker 层：跨 SM 扩展，整个 GPU 成为异构协同流水系统而非同构并行计算设备。

2. 性能与资源优化：1000 TPS 的关键技术拆解

FP4 Expert 量化（解决带宽墙）

采用 OCP MXFP4 格式（业界标准，已有硬件支持）
关键洞察：MoE 架构中 Expert 参数占绝大多数（>95%），且对量化容忍度高；Attention、LayerNorm 等模块精度敏感，保留原始精度（FP8）
通过 QAT（量化感知训练）弥补精度损失，实验表明能力与原始模型基本持平
工程价值：FP4 相比 FP8 将带宽压力减半，直接解锁内存带宽瓶颈

DFlash 块级掩码并行投机解码（突破自回归串行）

传统投机解码的瓶颈在于草稿模型仍是自回归（串行生成候选），DFlash 的关键创新：

草稿模型一次 forward 填充整个掩码块（8 个位置），彻底消除自回归草稿的串行约束
草稿模型专用 SWA（滑动窗口注意力）：每次预测计算量从"上下文长度线性"降为"常数"，与 MiMo-V2 系列的 SWA 设计天然对齐
训练时在 GPU 本地 shard 级做掩码信号采样，一条序列可产生数万个独立训练信号，避免跨设备通信
使用 Muon 二阶优化器 + 模型自蒸馏保证轻量草稿模型的高接受率

实测接受长度：

场景	平均接受长度	效果说明
代码生成	6.30 (max 7.14)	8 个草稿 token 中接受 6-7 个
数学/推理	5.56	稳定高接受率
Agent	4.29	高不确定性场景仍有显著加速

微秒级瓶颈的系统级协同消除

在 1000 TPS 下，单个算子的生命周期压缩到微秒级，大量"非核心"算子暴露为瓶颈：

RMSNorm、RoPE、KV Cache 写入、硬件同步、元数据开销
Attention 层的真正瓶颈往往不是 Attention kernel 本身，而是周围这些碎片操作
MTP（Multi-Token Prediction）中每个额外 LM Head 约增加数十微秒，在 1000 TPS 频率下不可忽视

TileRT 针对 MiMo 的算法特性定制编译引擎：调优 DFlash 模块结构、滑动窗口大小、Attention Sink、接受长度与验证代价的平衡点。

3. 并发与调度模型

DFlash 的隐含并发哲学：将"串行草稿→串行验证"改为"并行块生成→批量验证"，天然提升了推理系统的内部并发度。块大小限制为 8，是对"提高接受率 vs 降低验证开销 vs 提升并发度"三者的工程权衡。

资源公平性调度：针对稀缺高速推理资源，系统实现了基于队列的访问控制——每账号每天最多排队 10 次、每 session 上限 30 分钟、空闲超 5 分钟自动释放——这是实际生产中高价值资源调度的典型设计。

4. 可扩展性设计

方案的可扩展性体现在两个维度：

硬件无关性：通过模型-系统协同设计在商用 GPU 上达到专用硬件级别的推理速度，避免了绑定特定硬件加速器的风险。
架构通用性：DFlash + SWA 草稿模型的组合对 MoE 长上下文场景天然友好，随着 MiMo-V2.5（非 Pro 版本）的 UltraSpeed 支持跟进，方案已具备向更多模型扩展的能力。

5. 反常识点梳理

反常识点	常规认知	实际做法	背后原因
速度本身就是智能	速度是部署指标，与模型能力无关	1000 TPS 使 Best-of-N/Tree Search 在相同时间内可运行数十条推理路径	速度解锁了更深层的 Test-Time Scaling，直接提升推理质量
专用硬件才能极速推理	千亿参数高速推理需要 Wafer-Scale 或片上 SRAM 专用芯片	8 块商用 GPU 通过模型-系统协同设计突破 1000 TPS	执行模型革命 + 算法协同可以替代专用硬件
投机解码草稿模型需要自回归	草稿模型逐 token 预测是必要的串行约束	DFlash 草稿模型一次 forward 填充整个掩码块	掩码并行预测从根本上消除了草稿阶段的串行性
FP4 量化会严重损害推理能力	FP4 精度过低，复杂推理/代码任务必然退化	选择性仅量化 MoE Expert，配合 QAT，整体能力与原始模型持平	MoE Expert 对量化容忍度高；非 Expert 模块保留高精度
系统瓶颈在核心计算 kernel	推理系统优化 = 优化 GEMM 和 Attention kernel	在 1000 TPS 下，RMSNorm/RoPE/KV Cache 写入等"非核心"操作成为主要瓶颈	极低延迟下所有算子生命周期压缩到微秒级，无处隐藏碎片开销

工程模式提炼

模式名	文章中的实现	大模型基建启示
选择性精度分层量化	MoE Expert 用 FP4，其余模块保持 FP8；通过 QAT 弥补精度损失	量化策略应与模型架构特性绑定：参数密集且精度不敏感的组件激进量化，精度敏感路径保守保留。适用于任何 MoE/稀疏激活架构
块级掩码并行投机解码	DFlash 草稿模型单次 forward 生成整个 mask block（8 tokens），消除草稿串行性	凡是自回归串行路径，均可考虑用"并行预填充+批量验证"替代；关键设计参数是 block size（接受率 vs 验证开销的平衡点）
持久引擎消除执行间隙	TileRT 将整个计算流水以单一 Persistent Engine 驻留 GPU，消除算子边界同步开销	在追求极低延迟时，"算子粒度执行"本身是瓶颈。下一代推理框架应考虑 Tile/Pipeline 粒度的持久执行模型
异构 Warp 专化流水	通信 Warp、数据移动 Warp、张量计算 Warp 分工协同，GPU 变为异构流水系统	高性能推理 kernel 设计中，打破同构 lock-step 模型，引入 Warp Specialization 可显著提升硬件利用率
模型-系统协同设计（Codesign）	模型设计（SWA、DFlash 结构）与系统实现（TileRT 编译引擎）深度绑定，联合调优至微秒级	当系统已逼近硬件极限，继续提升必须打破模型/系统分层边界，联合设计模型架构与执行引擎。Speed Scaling 时代，Codesign 是必选项
SWA 草稿模型对齐主模型	草稿模型使用 SWA，天然匹配主模型的 SWA 设计，实现"上下文长度无关的常数计算量"	草稿模型架构应与主模型特性深度对齐，而非独立设计。SWA 草稿模型是长上下文场景投机解码的理想选择
高价值稀缺资源的队列调度	每账号每日限排队 10 次、session 上限 30 分钟、5 分钟空闲自动释放	稀缺高成本推理资源应配套明确的公平调度策略：限频+超时自动回收+优先级区分（企业/开发者优先），避免资源空占
GPU 本地 shard 级训练信号采样	DFlash 训练时在 GPU 本地 shard 内采样掩码信号，一条序列产生数万训练信号，无跨设备通信	长上下文训练中，将训练信号生成下推到设备本地可大幅提升数据效率，避免通信成为训练瓶颈

关键引用

"在相同的挂钟时间内，模型可以并行运行数十条推理路径（Best-of-N/Tree Search），在后台自动验证和自我修正——用原始速度创造思维深度，直接提升推理质量。"

"从数十 TPS 到 1000+ TPS，运作于完全不同维度的硬件现实。"

"当系统进入 1000+ TPS 领域，单个算子的生命周期被压缩到微秒级。在这个频率下，1 微秒的开销直接转化为端到端性能的百分比抖动。"

"速度本身就是新的 Scaling Law……推理速度不再只是基础设施指标，它直接决定推理深度、rollout budget、交互延迟、Agent 自主性，以及 Test-Time Scaling 的实际可行性。"

"过去的时代重心在模型 Scaling；即将到来的时代将同等重视 Speed Scaling。"

延伸思考

Speed Scaling 与 Test-Time Scaling 的乘法效应：MiMo 的案例揭示了一个新的能力公式——相同计算预算下，推理速度提升 10x 等价于 Best-of-N 搜索深度增加 10x。这意味着推理优化投入的 ROI 可能高于继续增加模型参数。对于追求"最优单次对话质量"的产品，如何在基建层面设计支持 Best-of-N/Tree Search 的调度系统，是当前最值得投入的方向之一。
Codesign 边界的工程组织挑战：MiMo × TileRT 的成功依赖于模型团队与系统团队的深度联合调优（从 DFlash block size 到 SWA 窗口大小到编译器 kernel 设计的每一个参数）。这种跨层协同在大厂内部面临组织边界问题——如何设计团队结构和协作机制，使 Model Research 团队和 Inference System 团队能够实现真正的 Codesign 而非接口对接，是大模型基建领域值得深入思考的工程组织命题。
DFlash 的通用化潜力：DFlash 的核心是"一次 forward 并行填充掩码块"，这一思路与 Diffusion LM、Masked Language Model 的训练范式天然兼容。在非自回归或半自回归生成领域，DFlash 类方法是否能成为标准加速组件？其接受率在一般对话（当前偏低）场景的提升空间，将决定该方法能否从"代码/推理专项加速"演进为通用推理加速技术。