Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

在使用多链路的 3-Clos IP 交换矩阵上配置 GLB

在 Clos 网络中,前两个下一跃点的拥塞会影响本地节点和前一个跃点节点的负载平衡决策,并触发全局负载平衡 (GLB)。我们在三级 Clos 拓扑上支持 GLB,在主干交换机和架顶式交换机之间使用多链路。

动态负载平衡 (DLB) 有助于避免拥塞链路,从而缓解本地拥塞。但是,DLB 无法解决网络中远程设备遇到的某些拥塞问题。在这些情况下,全局负载平衡 (GLB) 会使用下游交换机感知到的路径质量调制本地路径选择,从而缓解拥塞,从而扩展 DLB。GLB 允许上游交换机避开下游拥塞热点,并选择更好的端到端路径。在 Clos 网络中,前两个下一跃点的拥塞会影响本地节点和前一个跃点节点的负载平衡决策,并触发 GLB。如果路由只有一个下一跃点,则会创建简单路径质量配置文件。如果路由具有多个下一跃点节点,则会为每个下一个跃点节点创建一个简单路径质量配置文件。

Clos 网络中的配置文件共享

在具有许多 GPU 的广泛 Clos 网络配置中,配置文件共享机制可优化有限的配置文件资源。在具有五个或更多阶段的 Clos 网络中,某些节点(如超级主干)超过了 64 个下一跃点节点。我们可以在特定条件下重复使用配置文件,以支持超过 64 个下一跳节点。在管理大规模网络交换矩阵时,特别是在超大规模 AI/ML 环境中,有效利用配置文件容量至关重要。配置文件共享功能允许两个下一跃点节点使用单个配置文件(如果它们的路径不重叠)。确保路径不重叠,可在不超出约束的情况下保持高效的路由,从而最大限度提高资源利用率。

配置文件共享涉及严格的标准,以防止配置冲突和性能下降。节点必须在不同的下一跳链路上运行,以确保正确使用共享配置文件,保持网络稳健性。了解这些标准至关重要,因为配置错误可能会导致路由不理想或不稳定。

注意:

即使共享配置文件,简单配置文件的总数也不得超过 1024。硬件配置文件可以拥有的最大下一跃点(路径)数为 352。

在转换期间,从一个配置文件空间分配过渡到另一个配置文件空间分配可能会导致 PFE 中出现超过 64 个硬件配置文件。强烈建议停用 bgp global-load-balancing,等到所有配置文件都从 PFE 中清除后再更改配置文件空间分配。

GLB 在具有多链路的 3-Clos 网络中的优势

  • 当具有大象流且缺乏熵的 AI-ML 流量导致交换矩阵中拥塞时,减轻拥塞。

  • 高效的流量分配,确保最佳链路利用率。在 DC 交换矩阵中,散列无法确保所有 ECMP 链路上的负载分布均匀,这可能会导致某些链路利用率不足。

  • 减少远程链路故障时的数据包丢失。

图 1 中,S1 和 S2 是连接到 T1 和 T2 架顶式 (ToR) 设备的主干节点,带有多个链路 a、b、c、d 和 p、q、r、s。S1 和 S2 汇总到远程设备的所有可用路径的质量,并向 ToR 设备通告总体路径质量。1.1 到 1.n 和 2.1 到 2.n 分别是 ToR 设备 T1 和 T2 后面的主机或路由。如果一个或多个链路发生故障,主干将继续将相同的聚合逻辑应用于剩余的活动链路。只有当多链路组中的所有链路均关闭时,远程链路状态才会播发为“关闭”。

图 1:具有多链路的 3 个 Clos IP 交换矩阵上的 GLB GLB on 3 Clos IP Fabric with Multilinks
要在 3-Clos IP 交换矩阵上的主干交换机和架顶式交换机之间有多条路径的网络中配置 GLB:
  1. 为每个节点配置一个路由器 ID。如果您不想将 路由器 ID 用作 GLB 节点 ID,请分配BGP标识符。
    注意:如果在配置了 GLB 的节点上更改, router-id则在您清除这些对等方上的 BGP 会话之前,连接的 BGP 邻接方不会使用此更改进行更新。
  2. 根据 您的网络要求,在流式或按数据包模式的主干和叶节点上启用 DLB。

    在交换矩阵中的每台路由器上配置 DLB。要实现有效的 GLB,交换矩阵中每台路由器上的 DLB 配置必须相同。

  3. 在主干和叶设备上启用 GLB。必须在交换矩阵中的每台路由器上配置 GLB。
    1. 在主干设备上,将 GLB 配置为helper-only模式。

      在帮助程序模式下,节点监控链路质量。

    2. 在叶设备上,将 load-balancer-only GLB 配置为模式。

      在负载均衡模式下,GLB 仅从相邻节点接收链路质量,并使用下一跳和下一跳的组合链路质量来做出负载平衡决策。

  4. 在选定的 BGP 对等方或 BGP 组上禁用 GLB。
  5. 在主干设备上,启用 GLB 多链路模式。主干可以将两个链路的链路质量聚合到架顶式设备并将其发送给它们。聚合的计算方式有两种:
    1. 最大活动本地链路数 - 如果网络具有不同速度的链路,请使用此选项。

    2. 本地活动链路平均值 — 如果不同设备的链路速度相同,请使用此选项。默认情况下,主干播发所有链接的平均质量。

    注意:当主干到架顶式设备通过多个链路连接时,在平均模式下默认启用 GLB 多链路模式。如果手动更改 GLB 多链路模式,则必须关闭电源并重新启动 PFE。
  6. 使用以下命令验证配置。
    • show global-load-balancing monitor-links 以显示所有受监控链路的详细信息。

    • show bgp global-load-balancing path-monitor 以显示 BGP 创建的所有路径监视器及其安装状态。

    • show bgp global-load-balancing profile 以显示所有 GLB 配置文件及其安装状态。