Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

IP 交换矩阵 GPU 后端交换矩阵架构

此群集中的 GPU 后端交换矩阵是使用瞻博网络 QFX5240-64OD 交换机构建的,这些交换机既充当叶交换机,又充当主干节点,如 图 1 所示。该体系结构包括两条条带,每条由八个QFX5240叶节点组成。所有叶节点通过四个QFX5240主干节点互连,形成第 3 层 IPv6 交换矩阵,使用 EBGP 进行路由通告,使用原生 IPv6 进行转发。

图 1:GPU 后端交换矩阵架构 GPU Backend Fabric Architecture

NVIDIA H100 以及非队列对固定(非 QPP)服务器使用 400GE 接口连接到叶节点。叶脊链路也配置了 400GE 上行链路。瞻博网络 QFX5240 交换机支持到 主干节点 的 800GE 上行链路(参见 表 1),但当前配置使用 400GE。这种选择是有意为之的。通过选择 400GE 上行链路,可以使用现有资源测试拥塞场景。

表 1:基于叶脊链路速度的超额订阅率比较
叶脊链路速度

叶式上行链路

能力

(每叶)

从叶脊式设计

BW

服务器到叶边界线

(4 台服务器)

服务器到叶边界线

(8 台服务器)

认购超额

(4 台服务器)

超额订阅率

(8 台服务器)

200 Gbps 4 × 200G = 800 Gbps 12.8 Tbps 12.8 Tbps 25.6 Tbps

1:1

(平衡)

2:1

(超额认购)

400 Gbps 4 × 400G = 1.6 Tbps 25.6 Tbps 12.8 Tbps 25.6 Tbps

1:2

(预留空间)

1:1

(平衡)

800 Gbps 4 × 800G = 3.2 Tbps 51.2 Tbps 12.8 Tbps 25.6 Tbps

1:4

(严重过度配置)

1:2

(预留空间)

目前,该实验室包括四台服务器,可以在其中实施队列对固定 (QPP)。每个条带额外添加了两个不支持 QPP 的服务器,从而增加了服务器总带宽以匹配可用的主干上行链路容量。使用 IXIA 流量生成器注入额外的 RoCEv2 流量,以创建真实的拥塞场景并验证拥塞控制机制。

下面的表 2 和表 3 总结了 GPU 后端交换矩阵组件及其连接性。

表 2:每个集群和 Stripe 的 GPU 后端设备
Stripe GPU 服务器

GPU 后端叶设备

节点交换机型号

GPU 后端主干节点 交换机型号
1

高 100 x 2

(H100-01 & H100-02)

QFX5240-64 外径 x 8

(gpu-backend-001_leaf#; #=1-8)

QFX5240-64 外径 x 4

(gpu-backend-spine#; #=1-4)

2

高 100 x 2

(H100-01 & H100-02)

QFX5240-64 外径 x 8

(gpu-backend-002_leaf#; #=1-8)

表 3:服务器、叶节点和主干节点之间的 GPU 后端连接
条纹

GPU 服务器 <=>

GPU 后端叶节点

GPU 后端叶节点 <=>

GPU 后端主干节点

1

400GE 链路总数

服务器和叶节点之间 =

8(每台服务器的 GPU 数)x

1(400GE 服务器到叶链路的数量)x4(服务器数量)= 32

400GE 链路总数

GPU 后端叶节点和主干节点之间 =

8(叶节点数)x

2(每个枝叶到主干连接的 400GE 链路数)x

4(主干节点数)= 64

2

400GE 链路总数

服务器和叶节点之间 =

8(每台服务器的 GPU 数)x

1(400GE 服务器到叶链路的数量)x

4(服务器数量)= 32

400GE 链路总数

GPU 后端叶节点和主干节点之间 =

8(叶节点数)x

2(每个枝叶到主干连接的 400GE 链路数)x

4(主干节点数)= 64

超额订阅因素

GPU 服务器和叶节点之间的链路速度和数量,以及叶节点和主干节点之间的链路,决定了交换矩阵的整体超额订阅因素。

如果只有四台支持 NVIDIA H100 QPP 的服务器使用 8 × 400GE 接口(每台服务器 3.2 Tbps)连接到交换矩阵,则服务器到叶的总带宽为 12.8 Tbps。16 个叶节点中的每一个都使用 400GE 链路连接到 4 个主干节点,提供 25.6 Tbps 的叶脊带宽总带宽(参见 表 4)。这会产生 1:2 的比率,这意味着交换矩阵以 1:2 的比例过度配置,即使在 100% 的条纹间流量下,也能为完整的 GPU 到 GPU 通信提供足够的带宽。

为了实现平衡的、非超额订阅 (1:1) 的配置(测试时仍然会拥塞),我们引入了额外的 RoCEv2 流量,每个条带添加了两个额外的服务器,不支持队列对固定 (QPP)。这样一来,服务器总数达到 8 台,服务器到叶的带宽增加到 25.6 Tbps(参见 表 5),这与可用的主干上行链路容量相匹配。在此扩展设置中,使用 IXIA 注入额外的 RoCEv2 流量,以创建真实的拥塞场景并验证整个后端交换矩阵的拥塞控制机制。

注意:

建议按照 1:1 的订阅因素部署交换矩阵。

表 4:每个 Stripe 服务器到叶带宽
每个条带的服务器到叶带宽
条纹

服务器数量

每个 Stripe

每台服务器的 400 GE 服务器数 <=> 个叶链路

(与叶节点数和每台服务器的 GPU 数相同)

服务器 <=>叶

链路带宽 [Gbps]

服务器总数 <=> 叶链路 每条带带宽 [Tbps]
1 2 8 400 Gbps 2 个 8 个 400 Gbps = 6.4 Tbps
2 2 8 400 Gbps 2 个 8 个 400 Gbps = 6.4 Tbps
     

服务器 <=>叶带宽

12.8 Tbps
表 5:每条带叶到主干带宽
叶节点到主干节点每个条带的带宽
条带 叶节点数 主干节点数

400 GE 叶<数=> 个主干链路

每叶节点

服务器 <=>叶

链路带宽 [Gbps]

带宽叶<=>主干

每条带 [Tbps]

1 8 4 1 400 Gbps 8 x 4 x 1 x 400 Gbps = 12.8 Tbps
2 8 4 1 400 Gbps 8 x 4 x 1 x 400 Gbps = 12.8 Tbps
       

叶<=>主干带宽

25.6 Tbps

表 6:每个 Stripe 服务器到叶带宽
每个条带的服务器到叶带宽
条纹

服务器数量

每个 Stripe

每个服务器的 400 GE 服务器 ó lea 链路数

(与叶节点数量 & 相同

每台服务器的 GPU 数量)

服务器 <=>叶

链路带宽 [Gbps]

服务器总数 <=> 叶链路 每条带带宽 [Tbps]
1 4 8 400 Gbps 4 x 8 x 400 Gbps = 12.8 Tbps
2 4 8 400 Gbps 4 x 8 x 400 Gbps = 12.8 Tbps
     

服务器 <=>叶带宽

25.6 Tbps

GPU 服务器到叶节点的连接遵循 Rail 优化架构,如 Juniper Apstra、NVIDIA GPU 和 WEKA Storage JVD 的 AI 数据中心网络的 后端 GPU Rail 优化条形架构 部分所述。