本页内容
全局负载平衡 (GLB)
了解 GLB 以及如何配置 GLB。
GLB 概述
传统的负载平衡机制使用散列算法来决定发送流量的出口接口。这些算法对接收数据包的五个元组进行散列函数操作。但是,这些算法不会考虑发送数据包的链路的实时利用率。即使在 DLB 中,决策也完全是本地的,算法无法全局检测链路利用率。如果更远的节点拥塞,该节点可能会丢弃数据包。全局负载平衡 (GLB) 是对 DLB 的一项增强功能,可了解下一跳 (NNH) 级别的拥塞情况。
GLB 在决定出口接口之前会考虑远程链路的链路利用率。与 DLB 类似,当一个多路径支路遇到拥塞时,GLB 可以将流量分载到备用支路,以缓解拥塞。与 DLB 不同,GLB 可以重新路由叶设备上的流量,以避免主干级别的流量拥塞。
GLB 专为数据中心部署中常用的基于 Clos 的 IP 交换矩阵拓扑而设计。初始实施支持三级 Clos(叶-主干-叶)拓扑。最近的增强功能将 GLB 支持扩展到更大的多级 Clos 拓扑,包括引入超级主干层的五级架构。
在大规模 AI/ML 部署中,超级主干等中间节点可能具有大量下一跃点 (NNH) 路径。在基于QFX5240芯片组的平台上,硬件路径质量配置文件的数量限制为 64。为了解决这一限制,GLB 支持在特定条件下共享配置文件,允许跨多个路径重复使用路径质量配置文件。
这一增强功能使 GLB 能够超越硬件配置文件限制,支持具有更多枝叶、主干和 GPU 数量的大型 Clos 网络。
使用 功能资源管理器 确认平台和版本对特定功能的支持。
优势
-
减少由于拥塞和远程链路故障造成的数据包丢失
-
在 Clos 拓扑中有效实现端到端负载均衡,避免拥塞
-
在大数据流增加流量拥塞可能性的部署中尤其有用
AI-ML 数据中心中的 GLB
与其他网络相比,AI-ML 数据中心的熵更少,而数据流却更大。由于基于散列的负载平衡并不总是能有效地以较小的熵对大型流量数据流进行负载均衡,因此通常使用动态负载平衡 (DLB)。但是,DLB 仅考虑本地链路带宽利用率。因此,DLB 只能在下一跃点有效缓解流量拥塞。GLB 通过考虑远程链路上的流量拥塞,更有效地均衡大型数据流的负载。
在大规模 AI/ML 数据中心部署中,GLB 用于多级 Clos 拓扑,以支持不断增长的设备和 GPU。这些拓扑引入了额外的路径分集,使 GLB 能够跨多个网络层做出更有效的负载平衡决策。
配置 GLB
注意事项
配置 GLB 时请记住以下几点:
-
基于 Clos 的拓扑结构支持 GLB,包括三阶段和多阶段 Clos 部署。多级拓扑可以包含附加层,如超级主干,这会增加可用路径的数量。
-
在配置该功能之前,参与启用了 GLB 的 Clos 拓扑中的所有设备都必须支持 GLB。
-
在基于QFX5240芯片组的平台上,硬件路径质量配置文件的数量限制为 64。在较大的 Clos 拓扑(如五阶段部署)中,超级主干等节点可以拥有超过 64 条下一跃点路径。GLB 支持在特定条件下共享配置文件,以实现超出此限制的扩展。
-
GLB 仅支持同一对设备(例如,主干设备和叶设备)之间的一个链路。
-
在大规模 AI/ML 部署中,在设计支持 GLB 的交换矩阵时,请考虑 Clos 拓扑的大小和可用路径的数量。配置文件共享可实现高效扩展,但取决于拓扑特征和路径分布。
GLB 不支持以下功能:
-
架顶式 (ToR) 与主干设备之间的集成路由和桥接 (IRB) 接口
-
多宿主服务器
-
用于叠加路由的 GLB(IPv4 或 IPv6)
-
在路由实例中获知的用于 BGP 路由的 GLB