Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

系统代理

设备系统代理处理配置管理、设备到服务器的通信以及遥测收集。如果您没有使用 ZTP 来引导设备(或者您进行了一次性安装或正在使用计算代理),您可以使用此设备安装程序自动安装和验证设备。根据设备 NOS(如果是计算代理,则为 OS),可以安装设备代理(代理安装在设备上)或异机(代理安装在服务器上并通过 API 与设备通信)。要了解哪些平台支持本机和异机代理,请参阅 6.0.0 功能表设备管理部分。

有关管理设备的详细信息,请参阅 受管理设备

代理包括以下参数:

表 1:设备系统代理参数
参数 说明
设备地址 设备的管理 IP
平台(仅限异机) 仅适用于异机代理:下拉列表包括支持的平台。
用户名/密码 如果您未使用带有凭据的代理配置文件,请选中这些框并添加凭据。
座席配置文件 如果您不想手动输入凭据和包,请使用您之前定义的代理配置文件。
创建后要运行的作业
  • 安装(默认) - 在设备上安装代理
  • 检查 - 创建代理,但不安装代理。它显示在列表视图中,您可以稍后在其中安装它。
安装要求(仅限服务器) 仅适用于服务器:如果服务器没有互联网连接,请取消选中该复选框。
在创建代理之前,请安装所需的软件包,以便它们可用。此处还列出了与选定代理配置文件关联的软件包。
打开选项(仅限异机) 将配置的参数传递给异机代理。例如,要使用 HTTPS 作为从异机代理到设备的 API 连接,请使用键值对:proto-https - port-443。以下默认值可以使用打开选项覆盖:
  • commit_timeout - 60(整数:秒)
  • 遥测超时 - 100(整数:秒)
  • probe_timeout:5(整数:秒)
  • log_config_diff - True(布尔值)

GUI 中的系统代理

从左侧导航菜单中,导航到 设备>托管设备 ,以转到托管设备表。

要执行与一台或多台设备上的代理相关的任务,请选中其复选框(表中的第一列)。“ 代理” 菜单显示在表格上方,其中包含所选代理的可用任务(检查、安装、卸载、升级作系统映像、分配配置文件、删除)。

要在单个设备上执行与代理相关的任务,请单击设备的 按钮。“ 代理” 菜单垂直显示,其中包含可用任务(检查、安装、卸载、OS 升级、恢复、收集原始配置、显示日志、取消活动作业、编辑、删除)。

有关执行与代理相关的任务的详细信息,请参阅下一页。

NVIDIA 计算代理

谨慎:

除非您确保拥有 sudo 权限和对 GPU 服务器的无密码访问权限,否则您的计算代理安装将失败。

注意:计算代理不支持 ZTP。此外,原始配置不适用于计算代理。

计算代理是本机代理,加载到 NVIDIA DGX A100 和 DGX H100 GPU 服务器上。这些 GPU 服务器安装了 Ubuntu 22.0.4。

每个 GPU 服务器有 8 个 GPU,每个 GPU 分配给一个 ConnectX-6/7 RDMA 接口。每个接口都是轨道的成员,并且该接口是轨道组的一部分。可根据此编号方案将接口分配给轨道组。例如,如果您有一个索引为 0 的接口,则可以将该接口添加到名为 Rail 1 的组中。如果索引为 1,则可以将该接口添加到名为 Rail 2 的组中,依此类推,直到到达 Rail 8。默认情况下,每个轨道都连接到不同的叶设备,但您可以设计每个叶具有多个轨道的优化模板。

安装计算代理是一个手册过程,因此不支持全自动部署。此外,不支持原始配置。创建计算代理仍然相对简单。这个过程与在交换机上创建系统代理非常相似。但是,计算代理仅用于遥测,不会将任何配置推送到 GPU 服务器。GPU 服务器、逻辑设备、设备配置文件和接口映射都是本产品的一部分。您无需创建它们,但可以根据需要修改它们。

NVIDIA Compute Agents

您可以使用计算代理监控收到的 CNP 数据包数量以及收到的 GPU 无序 (OOS) 数据包数量。然后,分析引擎使用这些数据,您可以使用这些实时数据来提供有关网络性能、流量模式、潜在拥塞点和受影响端点的洞察。这些信息将帮助您识别性能瓶颈和异常情况。

您还可以创建可自定义的仪表板,以提供对您正在收集的数据的实时和历史见解。此功能可帮助您做出明智的数据驱动型决策。

作为计算代理的一部分,可以使用两种新的遥测服务:GPU_Hardware_Counters 和 Gpu_Infiniband_Dev_To_Interface。有关详细信息,请参阅 GPU 硬件计数器

此外,以下服务已扩展为在计算代理上运行:

  • LLDP

    主机名

    接口

    Interface_Counters

    Resource_Util

    Disk_Util

请参阅 创建 Onbox 代理

以开始上线 NVIDIA 计算代理。

验证