AI 用例和参考设计
AI JVD 参考设计涵盖完整的基于以太网的端到端 AI 基础架构,包括前端交换矩阵、GPU 后端交换矩阵和存储后端交换矩阵。这三种交换矩阵具有共生关系,同时每种交换矩阵都提供独特的功能来支持 AI 训练和推理任务。在 AI 交换矩阵中使用以太网,使我们的客户能够构建易于运维的大容量网络交换矩阵,从而最大限度缩短工作完成时间,提高 GPU 利用率,并充分利用有限的 IT 资源。
#Toc171952248__Ref171928222 中所示的 AI JVD 参考设计包括:
- 前端交换矩阵:此交换矩阵是前端服务器中驻留的 AI 工具通往 GPU 节点和存储节点的网关网络。前端 GPU 交换矩阵允许用户与 GPU 和存储节点交互,以启动训练或推理工作负载,并可视化其进度和结果。它还为 NCCL(NVIDIA Collective Communications Library)集体通信提供了带外路径。
- GPU 后端交换矩阵:此交换矩阵连接 GPU 节点(执行 AI 工作流的计算任务)。GPU 后端交换矩阵在训练作业期间以无损方式在 GPU 之间传输高速信息。GPU 生成的流量使用 RoCEv2 (RDMA over Ethernet v2) 进行传输。
- 存储后端交换矩阵:此交换矩阵连接高可用性存储系统(保存大型模型训练数据)和 GPU(在训练或推理作业期间使用这些数据)。存储后端交换矩阵以无缝且可靠的方式传输大量数据。
图 1:AI JVD 参考设计