Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

遥测和监控

AI 群集网络需要无损、高吞吐量和低延迟的连接。维护性能的一个关键组件是收集和分析运营数据,以监控拥塞、系统运行状况和流量模式。Junos OS 遥测可以详细跟踪关键性能指标,包括特定于 AI 工作负载的阈值、计数器和拥塞指标。收集数据后,必须对这些数据进行分析、结构化和可视化,以支持监控、决策和持续网络优化。

以下部分介绍如何配置设备以启用数据收集,并概述了推荐用于 AI EVPN/VXLAN 交换矩阵解决方案的关键性能指标。

配置 QFX 交换机以提供遥测信息

要实施遥测收集,需要将交换机配置为允许基于 gPRC 的访问,如《Junos 遥测接口用户指南》中的 OpenConfig 和 gRPC for Junos 遥测接口 部分所述。

为此,所有叶节点和主干节点设备上都使用了以下配置:

表49.适用于 Junos OS 的 gRPC 配置命令

命令 说明
extension-service request-response grpc 在扩展服务框架下启用 gRPC 接口,用于 Junos 遥测接口 (JTI) 或第三方集成等 API。客户端发出请求并等待 Junos OS 服务器的响应。
ssl port 32767 配置 TCP 端口 32767 以便使用 SSL 加密进行通信。
local-certificate aos_grpc 使用名为 aos_grpc 的证书配置身份验证,以保护 gRPC 会话。请按照 配置 gRPC 服务 中所述的步骤生成并安装必要的证书。
routing-instance mgmt_junos 将 gRPC 服务器绑定到mgmt_junos路由实例,这意味着它仅侦听带外管理接口。

要验证遥测收集器之间的连接,请使用命令 show system connections 并搜索配置的 SSL 端口号。

示例输出显示来自两个收集器(10.100.1.17 和 10.100.1.20)的连接。

要确认收集器正在通过 gRPC/gNMI 主动提取数据并查看 正在使用哪些传感器, 请使用:

  • show network-agent statistics
  • show network-agent statistics detail
  • show network-agent statistics subscription-paths <sensor-path>
  • show network-agent statistics juniper
  • show network-agent statistics gnmi

示例

要确认传感器的状态,您可以使用: show agents sensors