作者:dodo
原文:https://mimo.xiaomi.com/blog/mimo-tilert-1000tps 补充技术原文:https://www.tilert.ai/blog/breaking-1000-tps.html 发布时间:2026-06-09 解读视角:大模型基础建设架构设计 沉淀时间:2026-06-09 标签:
推理优化MoE量化投机解码系统级协同设计高性能推理小米
一句话核心
小米 MiMo 团队与 TileRT 系统团队通过模型-系统极致协同设计(Codesign),在单个标准 8-GPU 商用节点上实现了千亿级 MoE 模型(1T 参数)首破 1000 tokens/s 的推理速度——核心武器是 FP4 专家量化 + DFlash 块级并行投机解码 + TileRT 持久引擎执行模型的三位一体组合,为大模型基建进入"速度即智能"新范式提供了完整的工程参考。
文章背景与问题域
为什么 1T 参数模型的推理速度是个硬问题?
在 1T 参数规模下,传统推理框架面临三层物理约束叠加:
- 内存带宽墙:1T 参数即便以 FP8 存储也需要约 1TB 显存,每次解码的 token 生成本质是一次全参数扫描,带宽完全成为瓶颈。
- 算子边界碎片化:传统框架将模型分解为数千个独立算子,每个 kernel 启动都有 host 侧 launch 延迟 + 硬件同步 + 全局内存往返开销。在低 TPS 时这些开销被淹没,在追求 1000 TPS 时每个算子的生命周期已被压缩到微秒级,这些"执行间隙"(Execution Gaps)成为决定性瓶颈。
- 自回归串行约束:标准自回归解码每次 forward pass 只生成 1 个 token,理论上无法突破单次 forward 延迟的倒数上限。
行业通用答案是依赖专用硬件(Cerebras Wafer-Scale、Groq 片上 SRAM 架构),但代价是放弃商用 GPU 生态。MiMo + TileRT 选择了一条不同的路:在商用 GPU 上通过模型-系统协同设计突破硬件极限。
核心架构 / 方案解析
整个方案可以理解为两跳突破:
第一跳:TileRT 执行模型革命(数十 TPS → 数百 TPS)
└─ 持久引擎 Kernel:消除算子边界的执行间隙
└─ Tile 级流水线:数据搬运与张量计算极致 overlap
└─ Warp 专化 + 异构 Worker:GPU → 异构流水协同执行系统
第二跳:模型-系统协同设计(数百 TPS → 1000+ TPS)
├─ MoE Expert FP4 量化(模型侧:解决带宽瓶颈)
│ └─ QAT 保能力 + 仅量化 Expert 参数(>95% 参数量)
└─ DFlash 块级掩码并行投机解码(模型侧:突破自回归串行)
└─ SWA 草稿模型 + Muon 二阶优化器 + 自蒸馏
└─ TileRT 针对性编译引擎(系统侧:让算法跑满硬件)
数据流概览
用户请求 (1 token/请求)
│
▼
DFlash 草稿模型 (SWA, 单次 forward → 预测整个掩码块 8 tokens)
│ 并行生成候选块
▼
MiMo-V2.5-Pro 主模型验证 (FP4 量化 MoE Expert)
│ 拒绝采样,平均接受 4.29~6.30 个 token
▼
TileRT 持久引擎输出 (1000+ tokens/s)
大模型基建视角专项解读
1. 系统架构与分层设计
TileRT 的根本创新在于将执行模型从"算子调度图"升级为"持久流水引擎"。传统框架(vLLM、TensorRT-LLM 等)的执行单元是算子,调度粒度是 kernel launch;TileRT 的执行单元是Tile,整个计算流水持续驻留在 GPU 内部,消除了算子边界处的同步开销。
分层设计上:
- Tile 层:数据搬运(Global Mem → Shared Mem → Register)与张量计算严格重叠。
- Warp 专化层:不同 Warp 组承担通信、数据移动、张量计算各自专化角色,打破同构 lock-step 执行。
- 异构 Worker 层:跨 SM 扩展,整个 GPU 成为异构协同流水系统而非同构并行计算设备。
2. 性能与资源优化:1000 TPS 的关键技术拆解
FP4 Expert 量化(解决带宽墙)
- 采用 OCP MXFP4 格式(业界标准,已有硬件支持)
- 关键洞察:MoE 架构中 Expert 参数占绝大多数(>95%),且对量化容忍度高;Attention、LayerNorm 等模块精度敏感,保留原始精度(FP8)
- 通过 QAT(量化感知训练)弥补精度损失,实验表明能力与原始模型基本持平
- 工程价值:FP4 相比 FP8 将带宽压力减半,直接解锁内存带宽瓶颈
DFlash 块级掩码并行投机解码(突破自回归串行)
传统投机解码的瓶颈在于草稿模型仍是自回归(串行生成候选),DFlash 的关键创新:
- 草稿模型一次 forward 填充整个掩码块(8 个位置),彻底消除自回归草稿的串行约束
- 草稿模型专用 SWA(滑动窗口注意力):每次预测计算量从"上下文长度线性"降为"常数",与 MiMo-V2 系列的 SWA 设计天然对齐
- 训练时在 GPU 本地 shard 级做掩码信号采样,一条序列可产生数万个独立训练信号,避免跨设备通信
- 使用 Muon 二阶优化器 + 模型自蒸馏保证轻量草稿模型的高接受率
实测接受长度:
| 场景 | 平均接受长度 | 效果说明 |
|---|---|---|
| 代码生成 | 6.30 (max 7.14) | 8 个草稿 token 中接受 6-7 个 |
| 数学/推理 | 5.56 | 稳定高接受率 |
| Agent | 4.29 | 高不确定性场景仍有显著加速 |
微秒级瓶颈的系统级协同消除
在 1000 TPS 下,单个算子的生命周期压缩到微秒级,大量"非核心"算子暴露为瓶颈:
- RMSNorm、RoPE、KV Cache 写入、硬件同步、元数据开销
- Attention 层的真正瓶颈往往不是 Attention kernel 本身,而是周围这些碎片操作
- MTP(Multi-Token Prediction)中每个额外 LM Head 约增加数十微秒,在 1000 TPS 频率下不可忽视
TileRT 针对 MiMo 的算法特性定制编译引擎:调优 DFlash 模块结构、滑动窗口大小、Attention Sink、接受长度与验证代价的平衡点。
3. 并发与调度模型
DFlash 的隐含并发哲学:将"串行草稿→串行验证"改为"并行块生成→批量验证",天然提升了推理系统的内部并发度。块大小限制为 8,是对"提高接受率 vs 降低验证开销 vs 提升并发度"三者的工程权衡。
资源公平性调度:针对稀缺高速推理资源,系统实现了基于队列的访问控制——每账号每天最多排队 10 次、每 session 上限 30 分钟、空闲超 5 分钟自动释放——这是实际生产中高价值资源调度的典型设计。
4. 可扩展性设计
方案的可扩展性体现在两个维度:
- 硬件无关性:通过模型-系统协同设计在商用 GPU 上达到专用硬件级别的推理速度,避免了绑定特定硬件加速器的风险。
- 架构通用性:DFlash + SWA 草稿模型的组合对 MoE 长上下文场景天然友好,随着 MiMo-V2.5(非 Pro 版本)的 UltraSpeed 支持跟进,方案已具备向更多模型扩展的能力。
5. 反常识点梳理
| 反常识点 | 常规认知 | 实际做法 | 背后原因 |
|---|---|---|---|
| 速度本身就是智能 | 速度是部署指标,与模型能力无关 | 1000 TPS 使 Best-of-N/Tree Search 在相同时间内可运行数十条推理路径 | 速度解锁了更深层的 Test-Time Scaling,直接提升推理质量 |
| 专用硬件才能极速推理 | 千亿参数高速推理需要 Wafer-Scale 或片上 SRAM 专用芯片 | 8 块商用 GPU 通过模型-系统协同设计突破 1000 TPS | 执行模型革命 + 算法协同可以替代专用硬件 |
| 投机解码草稿模型需要自回归 | 草稿模型逐 token 预测是必要的串行约束 | DFlash 草稿模型一次 forward 填充整个掩码块 | 掩码并行预测从根本上消除了草稿阶段的串行性 |
| FP4 量化会严重损害推理能力 | FP4 精度过低,复杂推理/代码任务必然退化 | 选择性仅量化 MoE Expert,配合 QAT,整体能力与原始模型持平 | MoE Expert 对量化容忍度高;非 Expert 模块保留高精度 |
| 系统瓶颈在核心计算 kernel | 推理系统优化 = 优化 GEMM 和 Attention kernel | 在 1000 TPS 下,RMSNorm/RoPE/KV Cache 写入等"非核心"操作成为主要瓶颈 | 极低延迟下所有算子生命周期压缩到微秒级,无处隐藏碎片开销 |
工程模式提炼
| 模式名 | 文章中的实现 | 大模型基建启示 |
|---|---|---|
| 选择性精度分层量化 | MoE Expert 用 FP4,其余模块保持 FP8;通过 QAT 弥补精度损失 | 量化策略应与模型架构特性绑定:参数密集且精度不敏感的组件激进量化,精度敏感路径保守保留。适用于任何 MoE/稀疏激活架构 |
| 块级掩码并行投机解码 | DFlash 草稿模型单次 forward 生成整个 mask block(8 tokens),消除草稿串行性 | 凡是自回归串行路径,均可考虑用"并行预填充+批量验证"替代;关键设计参数是 block size(接受率 vs 验证开销的平衡点) |
| 持久引擎消除执行间隙 | TileRT 将整个计算流水以单一 Persistent Engine 驻留 GPU,消除算子边界同步开销 | 在追求极低延迟时,"算子粒度执行"本身是瓶颈。下一代推理框架应考虑 Tile/Pipeline 粒度的持久执行模型 |
| 异构 Warp 专化流水 | 通信 Warp、数据移动 Warp、张量计算 Warp 分工协同,GPU 变为异构流水系统 | 高性能推理 kernel 设计中,打破同构 lock-step 模型,引入 Warp Specialization 可显著提升硬件利用率 |
| 模型-系统协同设计(Codesign) | 模型设计(SWA、DFlash 结构)与系统实现(TileRT 编译引擎)深度绑定,联合调优至微秒级 | 当系统已逼近硬件极限,继续提升必须打破模型/系统分层边界,联合设计模型架构与执行引擎。Speed Scaling 时代,Codesign 是必选项 |
| SWA 草稿模型对齐主模型 | 草稿模型使用 SWA,天然匹配主模型的 SWA 设计,实现"上下文长度无关的常数计算量" | 草稿模型架构应与主模型特性深度对齐,而非独立设计。SWA 草稿模型是长上下文场景投机解码的理想选择 |
| 高价值稀缺资源的队列调度 | 每账号每日限排队 10 次、session 上限 30 分钟、5 分钟空闲自动释放 | 稀缺高成本推理资源应配套明确的公平调度策略:限频+超时自动回收+优先级区分(企业/开发者优先),避免资源空占 |
| GPU 本地 shard 级训练信号采样 | DFlash 训练时在 GPU 本地 shard 内采样掩码信号,一条序列产生数万训练信号,无跨设备通信 | 长上下文训练中,将训练信号生成下推到设备本地可大幅提升数据效率,避免通信成为训练瓶颈 |
关键引用
"在相同的挂钟时间内,模型可以并行运行数十条推理路径(Best-of-N/Tree Search),在后台自动验证和自我修正——用原始速度创造思维深度,直接提升推理质量。"
"从数十 TPS 到 1000+ TPS,运作于完全不同维度的硬件现实。"
"当系统进入 1000+ TPS 领域,单个算子的生命周期被压缩到微秒级。在这个频率下,1 微秒的开销直接转化为端到端性能的百分比抖动。"
"速度本身就是新的 Scaling Law……推理速度不再只是基础设施指标,它直接决定推理深度、rollout budget、交互延迟、Agent 自主性,以及 Test-Time Scaling 的实际可行性。"
"过去的时代重心在模型 Scaling;即将到来的时代将同等重视 Speed Scaling。"
延伸思考
-
Speed Scaling 与 Test-Time Scaling 的乘法效应:MiMo 的案例揭示了一个新的能力公式——相同计算预算下,推理速度提升 10x 等价于 Best-of-N 搜索深度增加 10x。这意味着推理优化投入的 ROI 可能高于继续增加模型参数。对于追求"最优单次对话质量"的产品,如何在基建层面设计支持 Best-of-N/Tree Search 的调度系统,是当前最值得投入的方向之一。
-
Codesign 边界的工程组织挑战:MiMo × TileRT 的成功依赖于模型团队与系统团队的深度联合调优(从 DFlash block size 到 SWA 窗口大小到编译器 kernel 设计的每一个参数)。这种跨层协同在大厂内部面临组织边界问题——如何设计团队结构和协作机制,使 Model Research 团队和 Inference System 团队能够实现真正的 Codesign 而非接口对接,是大模型基建领域值得深入思考的工程组织命题。
-
DFlash 的通用化潜力:DFlash 的核心是"一次 forward 并行填充掩码块",这一思路与 Diffusion LM、Masked Language Model 的训练范式天然兼容。在非自回归或半自回归生成领域,DFlash 类方法是否能成为标准加速组件?其接受率在一般对话(当前偏低)场景的提升空间,将决定该方法能否从"代码/推理专项加速"演进为通用推理加速技术。
延伸阅读
- TileRT 技术深度文章:Two Leaps to 1000 TPS — 从系统架构视角的详细解析,重点在执行模型革命与微秒级瓶颈分析
- MiMo-V2.5-Pro-FP4-DFlash HuggingFace — 开源的 FP4 量化权重 + DFlash 参数,可用于复现和二次研究
- DFlash 原论文 arXiv:2602.06036 — 块级掩码并行预测的算法原文
- OCP MXFP4 规范 — FP4 量化格式的行业标准规范
- MiMo-V2.5-Pro-UltraSpeed API 平台 — 官方 API 文档和使用指南