存储后端交换矩阵
存储后端交换矩阵为可从 GPU 服务器访问的存储设备提供连接基础架构。
存储基础架构的性能显着影响 AI 工作流程的效率。提供快速访问数据的存储系统可以显着减少训练 AI 模型的时间。同样,支持高效数据查询和索引的存储系统可以最大限度地缩短 AI 工作流程中预处理和特征提取的完成时间。
JVD 中的 存储后端交换矩阵 设计也遵循 3 级 IP clos 架构,如图 16 所示。存储群集中没有轨道优化的概念。每个 GPU 服务器与叶节点都有一个连接,而不是 8 个。
图 16:存储后端交换矩阵架构
下表汇总了此交换矩阵中包含的存储后端设备以及它们之间的连接:
表 16:存储后端设备
| Nvidia DGX GPU 服务器 | WEKA 存储服务器 | 存储后端叶节点交换机型号 (存储-后端-gpu-leaf 和存储-后端-weka-leaf) |
存储后端主干节点交换机型号 (存储-后端-主干#) |
| A100 x 8 H100 x 4 |
Weka 存储服务器 x 8 | QFX5130-32CD x 4 (2 个存储后端 GPU-叶节点,以及 2 个存储后端 weka-leaf 节点) |
QFX5130-32CD x 2 |
QFX5230 和 QFX5240 还针对存储后端叶和主干角色进行了验证。
表 17:存储后端中服务器、叶节点和主干节点之间的连接
| GPU 服务器 <=> 存储后端 GPU 叶节点 |
WEKA 存储服务器 <=> 存储后端 WEKA 叶节点 |
存储后端主干节点 <=> 存储后端叶节点 |
| 1 个 100GE 链路 在每台 H100 服务器和存储后端 GPU 叶交换机之间 1 个 200GE 链路 在每台 A100 服务器和存储-后端-gpu-叶交换机之间 |
1 个 100GE 链路 在每个存储服务器(WEKA-1 到 WEKA-8)和存储后端 WEKA 叶交换机之间 |
2 个 400GE 链路 在每个叶和主干节点与 storage-backend-weka-leaf 交换机之间 3 个 400GE 链路 在每个叶节点和主干节点与存储后端 GPU 叶交换机之间 |
托管 GPU 的 NVIDIA 服务器具有专用存储网络适配器 (NVIDIA ConnectX),支持以太网和 InfiniBand 协议并提供与外部存储阵列的连接。
GPU 和存储设备之间的通信利用 WEKA 分布式 POSIX 客户端,该客户端支持将存储的数据从 WEKA 节点传输到 GPU 客户端服务器的多条数据路径。WEKA 客户端利用数据平面开发工具包 (DPDK) 从作系统内核卸载 TCP 数据包处理,以实现更高的吞吐量。
此通信由上一节中描述的存储后端结构支持,并在图 17 中进行了示例。
图 17:GPU 后端到存储后端的通信
WEKA 存储解决方案
在小型群集中,使用每个 GPU 服务器上的本地存储,或者使用开源或商业软件将此存储聚合在一起可能就足够了。在工作负载较重的大型集群中,需要外部专用存储系统来提供数据集暂存以进行摄取,并在训练期间进行群集检查点。此 JVD 描述了使用 WEKA 存储的专用存储的基础架构。
WEKA 是一个分布式数据平台,允许高性能和并发访问,并允许群集中的所有 GPU 服务器有效地利用共享存储资源。凭借极致的 I/O 功能,WEKA 系统可以满足所有服务器的需求,并可扩展以支持数百甚至数千个 GPU。
在本文档的末尾,您可以找到有关 WEKA 存储系统的更多详细信息,包括配置设置、驱动程序详细信息等。