在使用多链路的 3-Clos IP 交换矩阵上配置 GLB
在 Clos 网络中,前两个下一跃点的拥塞会影响本地节点和前一个跃点节点的负载平衡决策,并触发全局负载平衡 (GLB)。我们在三级 Clos 拓扑上支持 GLB,在主干交换机和架顶式交换机之间使用多链路。
动态负载平衡 (DLB) 有助于避免拥塞链路,从而缓解本地拥塞。但是,DLB 无法解决网络中远程设备遇到的某些拥塞问题。在这些情况下,全局负载平衡 (GLB) 会使用下游交换机感知到的路径质量调制本地路径选择,从而缓解拥塞,从而扩展 DLB。GLB 允许上游交换机避开下游拥塞热点,并选择更好的端到端路径。在 Clos 网络中,前两个下一跃点的拥塞会影响本地节点和前一个跃点节点的负载平衡决策,并触发 GLB。如果路由只有一个下一跃点,则会创建简单路径质量配置文件。如果路由具有多个下一跃点节点,则会为每个下一个跃点节点创建一个简单路径质量配置文件。
Clos 网络中的配置文件共享
在具有许多 GPU 的广泛 Clos 网络配置中,配置文件共享机制可优化有限的配置文件资源。在具有五个或更多阶段的 Clos 网络中,某些节点(如超级主干)超过了 64 个下一跃点节点。我们可以在特定条件下重复使用配置文件,以支持超过 64 个下一跳节点。在管理大规模网络交换矩阵时,特别是在超大规模 AI/ML 环境中,有效利用配置文件容量至关重要。配置文件共享功能允许两个下一跃点节点使用单个配置文件(如果它们的路径不重叠)。确保路径不重叠,可在不超出约束的情况下保持高效的路由,从而最大限度提高资源利用率。
配置文件共享涉及严格的标准,以防止配置冲突和性能下降。节点必须在不同的下一跳链路上运行,以确保正确使用共享配置文件,保持网络稳健性。了解这些标准至关重要,因为配置错误可能会导致路由不理想或不稳定。
即使共享配置文件,简单配置文件的总数也不得超过 1024。硬件配置文件可以拥有的最大下一跃点(路径)数为 352。
在转换期间,从一个配置文件空间分配过渡到另一个配置文件空间分配可能会导致 PFE 中出现超过 64 个硬件配置文件。强烈建议停用 bgp global-load-balancing,等到所有配置文件都从 PFE 中清除后再更改配置文件空间分配。
GLB 在具有多链路的 3-Clos 网络中的优势
-
当具有大象流且缺乏熵的 AI-ML 流量导致交换矩阵中拥塞时,减轻拥塞。
-
高效的流量分配,确保最佳链路利用率。在 DC 交换矩阵中,散列无法确保所有 ECMP 链路上的负载分布均匀,这可能会导致某些链路利用率不足。
-
减少远程链路故障时的数据包丢失。
在 图 1 中,S1 和 S2 是连接到 T1 和 T2 架顶式 (ToR) 设备的主干节点,带有多个链路 a、b、c、d 和 p、q、r、s。S1 和 S2 汇总到远程设备的所有可用路径的质量,并向 ToR 设备通告总体路径质量。1.1 到 1.n 和 2.1 到 2.n 分别是 ToR 设备 T1 和 T2 后面的主机或路由。如果一个或多个链路发生故障,主干将继续将相同的聚合逻辑应用于剩余的活动链路。只有当多链路组中的所有链路均关闭时,远程链路状态才会播发为“关闭”。