本页内容
系统代理
设备系统代理处理配置管理、设备到服务器的通信以及遥测收集。如果您没有使用 ZTP 来引导设备(或者您进行了一次性安装或正在使用计算代理),您可以使用此设备安装程序自动安装和验证设备。根据设备 NOS(如果是计算代理,则为 OS),可以安装设备代理(代理安装在设备上)或异机(代理安装在服务器上并通过 API 与设备通信)。要了解哪些平台支持本机和异机代理,请参阅 6.0.0 功能表的设备管理部分。
有关管理设备的详细信息,请参阅 受管理设备。
代理包括以下参数:
| 参数 | 说明 |
|---|---|
| 设备地址 | 设备的管理 IP |
| 平台(仅限异机) | 仅适用于异机代理:下拉列表包括支持的平台。 |
| 用户名/密码 | 如果您未使用带有凭据的代理配置文件,请选中这些框并添加凭据。 |
| 座席配置文件 | 如果您不想手动输入凭据和包,请使用您之前定义的代理配置文件。 |
| 创建后要运行的作业 |
|
| 安装要求(仅限服务器) | 仅适用于服务器:如果服务器没有互联网连接,请取消选中该复选框。 |
| 包 | 在创建代理之前,请安装所需的软件包,以便它们可用。此处还列出了与选定代理配置文件关联的软件包。 |
| 打开选项(仅限异机) | 将配置的参数传递给异机代理。例如,要使用 HTTPS 作为从异机代理到设备的 API 连接,请使用键值对:proto-https - port-443。以下默认值可以使用打开选项覆盖:
|
GUI 中的系统代理
从左侧导航菜单中,导航到 设备>托管设备 ,以转到托管设备表。

要执行与一台或多台设备上的代理相关的任务,请选中其复选框(表中的第一列)。“ 代理” 菜单显示在表格上方,其中包含所选代理的可用任务(检查、安装、卸载、升级作系统映像、分配配置文件、删除)。
要在单个设备上执行与代理相关的任务,请单击设备的 作 按钮。“ 代理” 菜单垂直显示,其中包含可用任务(检查、安装、卸载、OS 升级、恢复、收集原始配置、显示日志、取消活动作业、编辑、删除)。
有关执行与代理相关的任务的详细信息,请参阅下一页。
NVIDIA 计算代理
除非您确保拥有 sudo 权限和对 GPU 服务器的无密码访问权限,否则您的计算代理安装将失败。
计算代理是本机代理,加载到 NVIDIA DGX A100 和 DGX H100 GPU 服务器上。这些 GPU 服务器安装了 Ubuntu 22.0.4。
每个 GPU 服务器有 8 个 GPU,每个 GPU 分配给一个 ConnectX-6/7 RDMA 接口。每个接口都是轨道的成员,并且该接口是轨道组的一部分。可根据此编号方案将接口分配给轨道组。例如,如果您有一个索引为 0 的接口,则可以将该接口添加到名为 Rail 1 的组中。如果索引为 1,则可以将该接口添加到名为 Rail 2 的组中,依此类推,直到到达 Rail 8。默认情况下,每个轨道都连接到不同的叶设备,但您可以设计每个叶具有多个轨道的优化模板。
安装计算代理是一个手册过程,因此不支持全自动部署。此外,不支持原始配置。创建计算代理仍然相对简单。这个过程与在交换机上创建系统代理非常相似。但是,计算代理仅用于遥测,不会将任何配置推送到 GPU 服务器。GPU 服务器、逻辑设备、设备配置文件和接口映射都是本产品的一部分。您无需创建它们,但可以根据需要修改它们。
您可以使用计算代理监控收到的 CNP 数据包数量以及收到的 GPU 无序 (OOS) 数据包数量。然后,分析引擎使用这些数据,您可以使用这些实时数据来提供有关网络性能、流量模式、潜在拥塞点和受影响端点的洞察。这些信息将帮助您识别性能瓶颈和异常情况。
您还可以创建可自定义的仪表板,以提供对您正在收集的数据的实时和历史见解。此功能可帮助您做出明智的数据驱动型决策。
作为计算代理的一部分,可以使用两种新的遥测服务:GPU_Hardware_Counters 和 Gpu_Infiniband_Dev_To_Interface。有关详细信息,请参阅 GPU 硬件计数器。
此外,以下服务已扩展为在计算代理上运行:
-
LLDP
主机名
接口
Interface_Counters
Resource_Util
Disk_Util
请参阅 创建 Onbox 代理
以开始上线 NVIDIA 计算代理。验证
-
如何从服务器端和 Apstra 端验证计算代理是否正确安装?
您可以在 GUI 中检查作业,或在服务器中运行命令 sudo service aos status 。
-
如何验证代理是否正常运行以及是否连接到 Apstra 控制器?
如果已将代理添加到蓝图中,Apstra 将进行监控,并在出现问题时发出活跃度异常。
-
重新启动 Apstra 服务器后,如何验证是否运行正常?
运行 service aos status or systemctl status aos 命令。
-
如果 GPU 服务器已重新部署到另一个环境,并且在拔下 GPU 服务器之前未删除代理,该怎么办?
运行 dpkg --purge --force-all aos-device-agent 命令
后跟命令 rm -fr /etc/aos /var/log/aos 。
-
如果 a) Apstra 已升级,或 b) Apstra 的升级顺序错误,或者 c) 代理出现问题,代理如何升级?
如何验证代理是否已连接到 Apstra 控制器?代理使用哪些端口与 Apstra 控制器通信,端口使用哪些协议?
https://www.juniper.net/documentation/us/en/software/apstra5.1/apstra-install-upgrade/topics/topic-map/apstra-server-upgrade-diff.html#installation-guide_upgrading_on-box_agents_vm-vm-
如果代理出现问题,如何重新启动 GPU 服务器上的代理?
运行 sudo service aos restart 命令。