AI-ML 数据中心的负载平衡概述
当 AI-ML 数据中心处理大型数据流(也称为大象流)时,会出现巨大的负载平衡挑战。如果大型数据流在网络中没有正确均衡负载,则可能会导致流量拥塞。当确实发生流量拥塞时,无效的负载平衡可能会无意中将流量定向到已经拥塞的链路,从而使问题更加复杂。Junos OS 演化版提供多种类型的负载平衡配置,这些配置针对大型数据流的挑战进行了优化。
作为网络管理员,您可以配置三种主要类型的负载平衡:
静态负载平衡 (SLB) — 在 SLB 中,您可以将某些类型的流量配置为始终使用某些链路。负载均衡是最基本的负载均衡类型。由于 SLB 无法对实时链路情况做出反应,因此 SLB 不适合 AI-ML 数据中心交换矩阵。
动态负载平衡 (DLB) — DLB 根据流量队列的大小和本地链路带宽利用率动态选择流量的链路。DLB 还会在重新路由流量之前检查链路的运行状况。在避免流量拥堵方面,DLB 比 SLB 更有效。
DLB具有多种允许自定义的模式和类型,包括:
选择性 DLB — 有选择地为某些按数据包方案启用 DLB,并对其他方案使用 SLB。
反应式路径重新平衡 — 即使启用了 Flowlet 模式 ,也可以对 DLB 使用此增强功能将流量移动到质量更好的链路。
全局负载平衡 (GLB) — GLB 是对 DLB 的改进。虽然 DLB 仅考虑本地链路带宽利用率,但 GLB 可以查看下一跳 (NNH) 级别的链路带宽利用率。GLB 可以重新路由流量,以避免网络中比 DLB 能够检测到的更远的流量拥塞。
您可以在 AI-ML 数据中心交换矩阵中并行使用这些不同的负载平衡技术。请继续阅读以了解有关每种负载平衡类型的更多信息。