全局负载平衡 (GLB)
概述
对于早期采用者来说,这是一项不断发展的功能。计划在未来的版本中提供更多增强功能。
与其他网络相比,AI-ML 数据中心的熵更少,数据流更大。由于基于哈希的负载平衡并不总是能有效地对此类流量进行负载平衡,因此通常使用动态负载平衡 (DLB) 来代替。但是,DLB 仅考虑本地链路带宽利用率。因此,DLB 只能在紧接下一跃点上有效缓解流量拥塞。全局负载平衡 (GLB) 是 DLB 的一项增强功能,可在下一跳 (NNH) 级别查看拥塞情况。GLB 通过考虑远程链路上的流量拥塞,更有效地对大型数据流进行负载均衡。
传统的负载平衡机制使用散列算法来决定要通过哪个出口接口发送流量。这些算法在接收数据包的五个元组上运算哈希函数。但是,这些算法不考虑它们发送数据包的链路的实时利用率。即使在 DLB 中,决策也完全是本地的,算法无法全局检测链路利用率。如果较远的节点拥塞,则该节点可能会丢弃数据包。
GLB 在决定出口接口之前会考虑远程链路的链路利用率。与 DLB 类似,当一个多路径段遇到拥塞时,GLB 可以将流量分载到其他分支以缓解拥塞。与 DLB 不同,GLB 可以在叶设备上重新路由流量,以避免主干层的流量拥塞。
好处
-
减少由于拥塞和远程链路故障而导致的数据包丢失
-
有效地对 Clos 拓扑中的大型数据流进行端到端负载平衡,以避免拥塞
-
在大型数据流会增加流量拥塞可能性的 AI-ML 部署中特别有用
配置
考虑
配置 GLB 时,请记住以下几点:
-
GLB 仅在 3-Clos(叶-脊-叶)拓扑中受支持。
-
3-Clos 拓扑中的所有设备都必须支持 GLB,然后才能配置 GLB。
-
当 3-Clos 拓扑支持 GLB 时,最多可以有 64 个叶设备。
-
GLB 仅支持同一对设备(例如,主干设备和叶设备)之间的一个链路。
GLB 不支持以下功能:
-
架顶式 (ToR) 与主干设备之间的集成路由和桥接 (IRB) 接口
-
多宿主服务器
-
用于叠加路由(IPv4 或 IPv6)的 GLB
-
在路由实例中获知的 BGP 路由的 GLB
配置 GLB
平台支持
请参阅 功能浏览器 ,了解平台和版本支持。