扩展
AI 群集的大小根据工作负载的具体要求而有很大差异。AI 群集中的节点数量受机器学习模型的复杂性、数据集的大小、所需的训练速度和可用预算等因素的影响。这个数字从少于 100 个节点的小型群集到包含 10000 个计算、存储和网络节点的数据中心范围群集不等。为了实现路径分集和减少 PFC 故障路径,必须始终部署至少 4 个主干。
表 18:交换矩阵扩展 - 设备和定位
| 小 | 中 | 大 |
|---|---|---|
| 64 – 2048 GPU | 2048 – 8192 GPU | 8192 – 32768 GPU |
| 瞻博网络 QFX5240-64CD/QFX5241-64CD 或 QFX5230-64CD 支持多达 2048 个 GPU,可用作主干和分叶设备,支持单条带或双条带应用。要遵循最佳实践建议,即使在单条带交换矩阵中,也应至少部署 4 个主干。 | 瞻博网络 QFX5240-64CD/QFX5241-64CD 支持 2048 – 8192 GPU,可用作主干和分叶设备,以实现适当的规模。这种基于轨道的 3 级交换矩阵设计可与来自 64 个主干和 1024 个叶节点的 16 个条带提供物理连接,保持 1:1 的订阅吞吐量模型。 | 对于支持 8192 个以上 GPU 的基础架构,瞻博网络 PTX1000x 机箱主干和 QFX5240-64CD/QFX5241-64CD 叶节点最多可支持 32768 个 GPU。这种基于轨道的 3 级交换矩阵设计可与来自 64 个主干和 4096 个叶节点的 64 个条带进行物理连接,保持 1:1 的订阅吞吐量模型。 |
|
|
|


