Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

全局负载平衡 (GLB)

了解 GLB 以及如何配置 GLB。

GLB 概述

传统的负载平衡机制使用散列算法来决定发送流量的出口接口。这些算法对接收数据包的五个元组进行散列函数操作。但是,这些算法不会考虑发送数据包的链路的实时利用率。即使在 DLB 中,决策也完全是本地的,算法无法全局检测链路利用率。如果更远的节点拥塞,该节点可能会丢弃数据包。全局负载平衡 (GLB) 是对 DLB 的一项增强功能,可了解下一跳 (NNH) 级别的拥塞情况。

GLB 在决定出口接口之前会考虑远程链路的链路利用率。与 DLB 类似,当一个多路径支路遇到拥塞时,GLB 可以将流量分载到备用支路,以缓解拥塞。与 DLB 不同,GLB 可以重新路由叶设备上的流量,以避免主干级别的流量拥塞。

GLB 专为数据中心部署中常用的基于 Clos 的 IP 交换矩阵拓扑而设计。初始实施支持三级 Clos(叶-主干-叶)拓扑。最近的增强功能将 GLB 支持扩展到更大的多级 Clos 拓扑,包括引入超级主干层的五级架构。

在大规模 AI/ML 部署中,超级主干等中间节点可能具有大量下一跃点 (NNH) 路径。在基于QFX5240芯片组的平台上,硬件路径质量配置文件的数量限制为 64。为了解决这一限制,GLB 支持在特定条件下共享配置文件,允许跨多个路径重复使用路径质量配置文件。

这一增强功能使 GLB 能够超越硬件配置文件限制,支持具有更多枝叶、主干和 GPU 数量的大型 Clos 网络。

使用 功能资源管理器 确认平台和版本对特定功能的支持。

优势

  • 减少由于拥塞和远程链路故障造成的数据包丢失

  • 在 Clos 拓扑中有效实现端到端负载均衡,避免拥塞

  • 在大数据流增加流量拥塞可能性的部署中尤其有用

AI-ML 数据中心中的 GLB

与其他网络相比,AI-ML 数据中心的熵更少,而数据流却更大。由于基于散列的负载平衡并不总是能有效地以较小的熵对大型流量数据流进行负载均衡,因此通常使用动态负载平衡 (DLB)。但是,DLB 仅考虑本地链路带宽利用率。因此,DLB 只能在下一跃点有效缓解流量拥塞。GLB 通过考虑远程链路上的流量拥塞,更有效地均衡大型数据流的负载。

在大规模 AI/ML 数据中心部署中,GLB 用于多级 Clos 拓扑,以支持不断增长的设备和 GPU。这些拓扑引入了额外的路径分集,使 GLB 能够跨多个网络层做出更有效的负载平衡决策。

配置 GLB

注意事项

配置 GLB 时请记住以下几点:

  • 基于 Clos 的拓扑结构支持 GLB,包括三阶段和多阶段 Clos 部署。多级拓扑可以包含附加层,如超级主干,这会增加可用路径的数量。

  • 在配置该功能之前,参与启用了 GLB 的 Clos 拓扑中的所有设备都必须支持 GLB。

  • 在基于QFX5240芯片组的平台上,硬件路径质量配置文件的数量限制为 64。在较大的 Clos 拓扑(如五阶段部署)中,超级主干等节点可以拥有超过 64 条下一跃点路径。GLB 支持在特定条件下共享配置文件,以实现超出此限制的扩展。

  • GLB 仅支持同一对设备(例如,主干设备和叶设备)之间的一个链路。

  • 在大规模 AI/ML 部署中,在设计支持 GLB 的交换矩阵时,请考虑 Clos 拓扑的大小和可用路径的数量。配置文件共享可实现高效扩展,但取决于拓扑特征和路径分布。

GLB 不支持以下功能:

  • 架顶式 (ToR) 与主干设备之间的集成路由和桥接 (IRB) 接口

  • 多宿主服务器

  • 用于叠加路由的 GLB(IPv4 或 IPv6)

  • 在路由实例中获知的用于 BGP 路由的 GLB

配置 GLB

  1. 配置 DLB。
    交换矩阵中每台设备上的 DLB 配置必须相同。有关如何配置 DLB,请参阅 动态负载平衡
  2. 为每个节点配置一个节点 ID。

    每个节点都必须有一个节点 ID。配置节点 ID 时,请记住以下几点:

    • 在以下层级之一配置节点 ID:
    • 如果配置该bgp-identifier语句,则必须对其进行全局配置,而不是在 或 neighbor 层次结构级别进行group配置。

    • 每个节点的 BGP 标识符在交换矩阵中必须是唯一的。

  3. 根据 Clos 拓扑在主干设备上配置 GLB。
    1. 对于 3-Clos 架构,请将主干设备配置为helper-only模式。

      helper-only 模式下,BGP 会为其播发的路由发送 NNH 节点 (NNHN) 功能。BGP 指示 GLB 应用程序监控具有 EBGP 会话的所有本地链路的链路质量,并将该信息泛洪到所有直接邻接方。

    2. 对于 5-Clos 架构,配置主干和超级主干设备时不带或load-balancer-only选项helper-only

      在 5-Clos 架构中,主干和超级主干设备同时支持辅助器和负载均衡模式。请勿在这些设备上配置或load-balancer-only选项helper-only

  4. 在叶设备上,将 load-balancer-only GLB 配置为模式。

    在模式下 load-balancer-only ,BGP 不会为其播发的路由发送 NNHN 功能。交换机从相邻节点接收链路质量。它利用下一跳和 NH 的综合链路质量来做出负载平衡决策。在任何 Clos 架构的叶设备上配置此选项。

  5. 选择性地禁用 GLB。
    使用该 global-load-balancing 语句全局配置 GLB 后,您可以在特定的 BGP 组或对等方上选择性地禁用它。要选择性地禁用 GLB,请在以下任一层级使用该 no-global-load-balancing 语句:

    例如:

  6. 使用以下命令验证配置是否成功:
    • show bgp global-load-balancing

    • show bgp global-load-balancing path

    • show bgp global-load-balancing path-monitor

    • show bgp global-load-balancing profile