前端概述
AI的AI前端包括使用户能够与AI系统交互的界面、工具和方法,以及允许这些交互的基础设施。前端使用户能够启动训练或推理任务,并可视化结果,同时隐藏潜在的技术复杂性。
前端系统的关键组件包括:
- 模型调度:用于管理脚本化 AI 模型作业的工具和方法,通常基于 SLURM(用于资源管理的简单 Linux 实用程序)工作负载管理器。这些工具使用户能够通过 shell CLI 或基于图形 Web 的界面发送指令、命令和查询,以编排在 GPU 上运行的学习和推理作业。用户可以配置模型参数、输入数据和解释结果,以及以交互方式启动或终止作业。在 AI JVD 中,这些工具托管在连接到 AI 前端交换矩阵的前端服务器上。
- AI 系统管理:用于管理(配置、监控和执行维护任务)AI 存储和处理组件的工具。这些工具有助于有效地构建、运行、训练和利用 AI 模型。示例包括 SLURM、TensorFlow、PyTorch 和 Scikit-learn。
- 交换矩阵组件管理:旨在帮助用户根据其要求和目标轻松部署和管理交换矩阵设备的机制和工作流程。它包括设备上线、配置管理和交换矩阵部署编排等任务。此功能由 Juniper Apstra 提供。
- 性能监控和错误分析:遥测系统跟踪与 AI 模型相关的关键性能指标,例如准确性、精度、召回率和计算资源利用率(例如 CPU、GPU 使用率),这些对于在训练和推理作业期间评估模型有效性至关重要。这些系统还可以深入了解训练和推理作期间的错误率和故障模式,并帮助识别可能影响 AI 性能的问题,例如模型偏移、数据质量问题或算法错误。这些系统的示例包括 Juniper Apstra 仪表板、TIG Stack 和 Elasticsearch。
- 数据可视化:允许用户直观地理解 AI 模型和工作负载生成的见解的应用程序和工具。它们提供有效的可视化,增强基于 AI 输出的理解和决策。用于监控和测量系统和网络级性能的相同遥测系统通常也会提供这种可视化效果。这些工具的示例包括 Juniper Apstra 仪表板、TensorFlow 和 TIG 堆栈。
- 用户界面:路由和交换基础设施,允许用户界面应用程序和工具与执行作业的 AI 系统(包括 GPU 和存储设备)之间进行通信。该基础设施确保用户与有效利用 AI 功能所需的计算资源之间的无缝交互。
- GPU 到 GPU 控制:通信建立、信息交换,包括 QP GID(全局 ID)、本地和远程缓冲区地址以及 RDMA 密钥(用于内存访问权限的 RKEY)