适用于 AI 交换矩阵的 Apstra Terraform 自动化
AI Terraform 配置
瞻博网络编译了一套 Terraform 配置,有助于为 AI 群集设置数据中心交换矩阵。AI 训练需要专用 GPU 后端交换矩阵、专用存储后端交换矩阵和前端交换矩阵。在这里,我们展示了此类由 Apstra 管理的网络交换矩阵,这些交换矩阵分别基于 A100 和 H100 GPU(或 HGX 等效)服务器部署逻辑设备、机架和模板,这些 GPU 分别具有 200GE 和 400GE 接入连接。此处定义的逻辑设备、机架和模板可创建 NVIDIA 轨道优化拓扑。
有关使用 Apstra 进行 AI 设计的 GitHub 存储库,请访问:
https://github.com/Juniper/terraform-apstra-examples/tree/master/ai-cluster-designs/
特定于 AI JVD 的 Terraform 配置
基于具有各种尺寸的轨道优化 GPU 交换矩阵的 AI 群集设计,Apstra 的此 Terraform 配置将为参考 AI 群集的专用 GPU 后端交换矩阵、专用存储后端交换矩阵和前端交换矩阵构建一组 3 张蓝图。
此示例将用作一组瞻博网络验证设计 (JVD) 配置,可应用于更大的群集。它有两个 NVIDIA 轨道优化组,其中 瞻博网络 个 QFX5220 叶交换机,一个条带为 8,QFX5230 个叶交换机,另一个条带为 8。它有 QFX5230 主干或高基数 PTX10008 主干的选项,此处的示例是用于统一机架中的 A100 和基于 H100 的服务器,或部署在“实验室分叶”机架中,混合服务器访问,一半是 A100 和一半 H100 连接,作为示例,因为这是此配置的实际实验室测试环境中所使用的。
可以找到此特定 AI JVD 的 GitHub 存储库:
https://github.com/Juniper/terraform-apstra-examples/tree/master/ai-cluster-jvd/
图 88:示例 GPU 后端 Terraform 模板
图 89:示例 GPU 后端 Terraform 模板:机架类型
图 90:示例 GPU 后端 Terraform 模板:逻辑设备
图 91:Terraform 模板:所有模板示例