Flat Datacenter Networks at Scale at Amazon - infra 架构解读

HackerNews入库于 2026/6/10|

Flat Datacenter Networks at Scale at Amazon - infra 架构解读

原文:https://perspectives.mvdirona.com/2026/06/flat-datacenter-networks-at-scale/ 解读视角:大模型基础建设架构设计 日期:2026-06-10

TL;DR

Amazon 将数十年前的随机图理论(Expander Graph)工程化落地,提出 RNG(Resilient Network Graph)架构,彻底替代了数据中心传统 Fat-Tree/Clos 拓扑。核心突破在于三个方向:Spraypoint 路由算法解决了随机图的转发状态爆炸问题,ShuffleBox 光学器件让随机布线变得和 Fat-Tree 一样可操作,数学模型允许在建造前对网络性能做出确定性预测。最终结果:减少 69% 路由器数量,吞吐提升 33%,网络功耗降低 40%,运营成本降低 27%。2026 年初,RNG 成为亚马逊全球新建数据中心的默认方案。对于大模型训练/推理集群来说,这种"等价路径 + 概率保障 + 线性降级"的网络设计思路极具参考价值。

背景与动机

Fat-Tree 的天花板

自 1980 年代起,数据中心网络主流采用 Fat-Tree(折叠 Clos)拓扑,层次化结构清晰、路由简单。2009 年 Amazon/Microsoft 发表的 VL2 论文(SIGCOMM 2009 Test of Time Award)将 Fat-Tree 推至极致,引入平坦寻址和 Valiant Load Balancing(VLB)做流量随机化,但底层拓扑仍是严格的树状层次。

Fat-Tree 在大规模场景下暴露出三大矛盾:

  1. 资源效率低:大量汇聚/核心层交换机仅承担转发角色,是纯 overhead。
  2. 故障爆炸半径大:核心/汇聚层单点故障会导致不成比例的容量损失。
  3. 扩容代价高:拓扑大小由交换机端口数和层数决定,扩容需要重新设计拓扑而非渐进式添加设备。

理论早已领先实践 30 年

  • 1976 年:Valiant 提出 Expander Graph(扩张图),最优路由网络的数学描述。
  • 1991 年:Friedman 证明随机连线的图以高概率等价于最优 Expander Graph,即"随机就是最优"。
  • 2012 年:Jellyfish 论文将随机图理论引入数据中心,但遗留了三个工程难题未解:随机图路由算法、随机布线可操作性、运营可见性。

RNG 是在 Jellyfish 之后十年、第一个在超大规模生产环境下解决了这三个难题的方案。

核心架构解析

RNG(Resilient Network Graph)整体架构

RNG 本质是**准随机图(Quasi-Random Graph)**拓扑——在随机性和确定性之间取得工程平衡:

传统 Fat-Tree:
  Server → ToR → Aggregation → Spine → Aggregation → ToR → Server
  (严格层次,路由确定,故障有层次结构)

RNG 平坦网络:
  Router ←→ ShuffleBox ←→ ShuffleBox ←→ ... ←→ Router
  (无层次,路由基于随机喷射 + 最短路径到 waypoint)

ShuffleBox:让随机布线可操作

ShuffleBox 是核心工程创新,一种无源光学器件(Passive Optical Device)

  • 面向机架侧:标准端口,技术人员按新机架插入即可,无需修改其他地方的布线。
  • ShuffleBox 之间:内部线序经过特殊 Shuffle 排列,使得 ShuffleBox 间随机互连后整体拓扑满足准随机图的数学性质。

关键属性:物理布线复杂度与 Fat-Tree 相当,但逻辑拓扑是准随机图

Spraypoint:低内存随机图路由

标准多路径路由在随机图中需要 20-80 倍于商用路由器内存的转发状态,Spraypoint 将其分解为两步:

  1. Source Spray:源路由器将流量随机喷射给所有邻居,无需存储复杂路由表。
  2. Waypoint 最短路径:每个目的路由器有若干 Waypoint,流量到达随机邻居后走标准最短路径到 Waypoint,再路由到目的地。

Spraypoint 提供了标准最短路径算法约2 倍的独立路径数,在单点故障或拥塞时绕行能力显著增强,同时将路由器内存需求控制在商用硬件范围内。

数学预测模型

为解决"建造前无法预测性能"的风险,团队开发了准随机图的解析数学模型,覆盖:

  • 平均路径长度、跳数分布
  • 链路负载分布
  • 给定设计参数下的最坏情况性能(概率意义下)

验证方式:530 处理器年的仿真(等效单 CPU 运行 500 年),运行在 Amazon EC2 上。运营商可以先输入服务器数量和目标性能指标,计算最低成本拓扑,数学验证后再开始建造。

关键工程设计

1. 等价路径代替层次路由

Fat-Tree 的层次决定了路由路径的确定性,但也固化了资源分配。RNG 中所有路径在统计意义上等价,容量是全局可调度的(Fungible Capacity),不存在"被某个层次锁住的带宽"。

这对 AllReduce 等集合通信负载特别有利:通信矩阵不依赖物理位置,任意两台机器间带宽均匀。

2. 线性降级代替阶梯式崩溃

  • Fat-Tree:丢失核心层交换机 → 大量路径断开 → 非线性容量损失。
  • RNG:丢失 1% 路由器 → 约 1% 容量损失,降级曲线线性且可预测。

这对大模型训练的长尾可靠性(跑完千卡数周的训练任务)极为重要。

3. 运营复杂度的软件化转移

随机图的路径不直观,传统 traceroute/排障工具失效。解决方案是将复杂性从运维人员大脑转移到专用诊断软件

  • 安装时:软件将抽象图翻译为逐端口安装指令。
  • 运营时:软件提供流量分布可见性和故障定位,屏蔽随机图的拓扑复杂性。

4. 渐进式扩容

Fat-Tree 因拓扑约束只能以固定"档位"扩容,每次扩容需重新设计整个网络。RNG 可持续添加路由器和连接,图自然生长,无需改变已有部分的设计。

5. 保持与现有硬件的兼容

RNG 复用了已在 Fat-Tree 数据中心部署的同款路由器和光模块,降低了迁移成本和供应链风险。ShuffleBox 是新增无源器件,成本和运维负担远低于有源交换机。

工程模式提炼

模式名称适用场景核心机制可复用性
Spray-to-Waypoint 路由无结构化层次的大规模路由、集合通信负载均衡源端随机喷射 + Waypoint 汇聚,将路由状态爆炸拆解为无状态喷射和小状态最短路径高,可用于 RDMA 网络的无损路由降级方案
准随机拓扑(Quasi-Random)需要随机图性能但受物理布线约束的场景在局部引入确定性结构(ShuffleBox),使整体逻辑拓扑具备随机图性质中,核心思想可迁移到 GPU 集群 Rail-Optimized 网络的随机化改进
线性降级设计超大规模系统可靠性、长任务容错用"无特殊关键节点"的设计消除故障放大效应,使降级曲线单调线性高,对 LLM 训练集群网络拓扑设计直接适用
建造前数学验证大规模基础设施建设决策开发解析数学模型预测性能,在真实建造前用大规模仿真验证,消除"建了才知道不行"的风险高,GPU 集群网络规划、存储网络设计均可借鉴
复杂度软件化转移运营复杂度高但不适合要求人工理解拓扑的场景将拓扑理解和排障逻辑封装进专用工具,运维人员无需理解底层随机图结构高,大模型集群的通信诊断工具设计可参考此模式
渐进式扩容无层次锁定快速增长的基础设施、避免大规模重建拓扑无固定档位约束,新节点直接接入图中,不破坏已有部分中,适用于 GPU 池化网络的动态扩容设计
Fungible Capacity(容量可替换性)异构负载、需要全局调度带宽的场景等价路径保证任意带宽资源可服务任意流量,无"被层次锁住的带宽"高,LLM 推理/训练混部场景下网络带宽调度

对大模型基建的启示

训练集群网络

  1. AllReduce 友好性:RNG 的等价路径特性天然支持多对多集合通信,避免了 Fat-Tree 中某些通信矩阵会打满特定汇聚层的问题。对 TP/PP/DP 混合并行的大模型训练,网络不再是通信矩阵的瓶颈。

  2. 长任务容错:百亿/千亿参数模型训练动辄数周,Fat-Tree 的阶梯式故障会导致被迫中断。RNG 的线性降级意味着单路由器故障后训练可以降速继续而非直接中断,大幅提升长任务完成率。

  3. 扩容不重建:GPU 集群从千卡扩展到万卡,Fat-Tree 需要重新规划整个网络拓扑。RNG 可以渐进式扩容,减少扩容窗口期(GPU 无法训练的时间)。

推理集群网络

  1. 低延迟尾部优化:RNG 在生产环境中延迟敏感型存储操作表现与 Fat-Tree 持平(Amazon Science 验证),且在链路拥塞时因多路径数量更多,P99 尾延迟表现更好。

  2. 在线扩容不停服:推理集群需要动态扩容应对流量洪峰,RNG 的渐进扩容特性允许在不中断现有服务的情况下添加 GPU 节点。

成本与密度

  1. 69% 路由器缩减的直接含义:同等机柜空间可以放更多 GPU,数据中心能效比提高,同时减少了网络设备的采购、备件、和维护成本。这对于以 GPU 为核心资产的 AI 基础设施来说,是真实的 CapEx 优化。

  2. 功耗降低 40%:在数据中心 PUE 约束下,网络功耗降低意味着同等电力预算可部署更多 GPU。

反常识点

  • "随机就是最优":Friedman 1991 年证明随机连线网络以高概率等同于数学意义上的最优 Expander Graph,工程中的"精心设计的拓扑"反而次于随机拓扑。
  • 准随机优于真随机:纯随机布线工程不可行,但引入局部确定性结构(ShuffleBox 的 Shuffle 模式)使拓扑保持准随机图的数学性质,同时布线复杂度降至与 Fat-Tree 相当——少量确定性反而成全了整体随机性。
  • 更少路由器反而更强:减少 69% 路由器同时实现 33% 吞吐提升和更强弹性,打破了"冗余设备 = 高可用"的直觉。关键在于 Fat-Tree 中大量路由器只是为拓扑结构服务,而非真正服务于流量。
  • 概率性保证并不弱于确定性保证:Fat-Tree 看似确定,但真实场景中故障频繁,其"确定性保证"已是名义上的。RNG 直接承认随机性并从设计上驯服它,反而提供了更真实可靠的保证。
  • 路由变复杂,运营变简单:随机图路由算法比树形路由复杂,但通过专用软件封装,实际运营人员的体验与 Fat-Tree 相当,复杂性被转移到软件而非要求人类理解拓扑。

参考资源