Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

扩展

AI 群集的大小根据工作负载的具体要求而有很大差异。AI 群集中的节点数量受机器学习模型的复杂性、数据集的大小、所需的训练速度和可用预算等因素的影响。这个数字从少于 100 个节点的小型群集到包含 10000 个计算、存储和网络节点的数据中心范围群集不等。为了实现路径分集和减少 PFC 故障路径,必须始终部署至少 4 个主干。

表 18:交换矩阵扩展 - 设备和定位

64 – 2048 GPU 2048 – 8192 GPU 8192 – 32768 GPU
瞻博网络 QFX5240-64CD/QFX5241-64CD 或 QFX5230-64CD 支持多达 2048 个 GPU,可用作主干和分叶设备,支持单条带或双条带应用。要遵循最佳实践建议,即使在单条带交换矩阵中,也应至少部署 4 个主干。 瞻博网络 QFX5240-64CD/QFX5241-64CD 支持 2048 – 8192 GPU,可用作主干和分叶设备,以实现适当的规模。这种基于轨道的 3 级交换矩阵设计可与来自 64 个主干和 1024 个叶节点的 16 个条带提供物理连接,保持 1:1 的订阅吞吐量模型。 对于支持 8192 个以上 GPU 的基础架构,瞻博网络 PTX1000x 机箱主干和 QFX5240-64CD/QFX5241-64CD 叶节点最多可支持 32768 个 GPU。这种基于轨道的 3 级交换矩阵设计可与来自 64 个主干和 4096 个叶节点的 64 个条带进行物理连接,保持 1:1 的订阅吞吐量模型。