路由器运行状况 SLE
要访问 Router Health SLE 页面,请导航到 Monitor > Service Levels > Routing > Router Health。
路由器运行状况 SLE 持续监控路由器运行状况的 KPI,例如温度、内存利用率、可访问性等。当这些 KPI 超过预定义的阈值时,瞻博网络 Mist 路由保证会记录故障分钟数。Failure minutes 是路由器运行状况降级的持续时间(以分钟为单位)。然后,它会执行根本原因分析并识别导致失败的特定分类器。路由器运行状况 SLE 提供这些分类器的可视化效果,使管理员能够评估网络上的最终用户体验。
路由器运行状况 SLE 测量什么?
路由器运行状况 SLE 测量路由器运行状况最佳的时间百分比,是衡量其传输和接收流量的能力的指标。
分类
分类器是一个参数,用于指示路由器是否处于最佳状态。当未达到路由器运行状况的成功阈值时,Juniper Mist Routing Assurance 会收集导致故障的因素并将其分类为分类器。路由器运行状况 SLE 监控以下分类器(也称为运行状况指示器):
-
Router Unreachable(路由器无法访问)- Router Unreachable 分类器测量路由器无法访问的持续时间。使用此分类器可了解路由器无法访问导致路由器运行状况 SLE 分数较低的时间百分比(范围从 0 到 100)。
-
Network - 网络分类器在吞吐量由于上行链路容量限制而低于预期时监控分钟数。它识别问题但这取决于从路由器发送到云的数据包的往返时间 (RTT) 值。Network classifier (网络分类器) 有两个子分类器,可帮助您识别这些问题:
-
WAN 抖动 - 显示受抖动影响的分钟数。抖动值的计算方法是将短时间内(最后 5 分钟或 10 分钟)内的 RTT 标准偏差与较长时期(天或周)内的 RTT 总体偏差进行比较。使用此分类器可了解导致路由器运行状况故障的时间百分比(范围从 0 到 100)。
-
WAN 延迟 - 显示受延迟影响的分钟数。延迟值是根据一段时间内 RTT 的平均值计算得出的。使用此分类器可了解导致路由器运行状况故障的时间百分比(范围从 0 到 100)网络延迟。
注意:如果路由器超过两天无法访问,则它会停止向路由器运行状况 SLE 贡献任何不良分钟数。路由器重新连接到瞻博网络 Mist 路由保证后,它将再次开始为 SLE 做出贡献。
-
-
System ─ System 分类器有三个子分类器,可帮助您识别这些问题:
-
CPU - 路由器的 CPU 消耗。使用此分类器可了解系统 CPU 利用率导致路由器运行状况故障的时间百分比(范围从 0 到 100)。
配置提交、BGP 对等体关闭和 BGP 摆动是 CPU 消耗激增的一些原因。
注意:CPU 分类器的阈值为 90%。
-
温度 - 路由器的温度。使用此分类器可了解系统温度导致路由器运行状况故障的时间百分比(范围从 0 到 100)。冷却系统故障或环境因素可能会影响此分级器。
-
内存 - 路由器的内存消耗。使用此分类器可了解系统内存导致路由器运行状况故障的时间百分比(范围从 0 到 100)。
注意:Memory classifier 的阈值为 90%。
-
-
容量 - 容量分类器监控路由器上路由的最高使用容量,其中包括路由信息库 (RIB) 与转发信息库 (FIB) 的最高使用率、FIB 中的最高使用率以及所有 FPC 和数据包转发引擎 (PFE) 中 FIB 的最高使用率。Capacity classifier (容量分类器) 有两个子分类器:
-
路由表 - 路由表容量是 RIB 和 FIB 的最高利用率。此子分类器显示路由表容量导致路由器运行状况失败的时间百分比(范围从 0 到 100)。请参阅 路由表容量 以分别查看 RIB 和 FIB 使用情况。
注意:Route Table 子分类器的阈值为 80%。
-
ARP 表 - 地址解析协议 (ARP) 表的 ARP 表容量。此子分类器显示 ARP 表容量导致路由器运行状况故障的时间百分比(范围从 0 到 100)。
注意:ARP 表子分类器的阈值为 80%。
当您看到大量容量使用情况时,必须检查该路由器的对等体使用情况和每个对等体上的路由数。如果您在此处发现任何异常值,请联系您的瞻博网络支持代表以解决问题。
-
单击 View Insights (查看见解) 按钮导航到 Router Insights (路由器见解) 页面并查看站点级别的路由器事件。如果您正在查看特定路由器的路由器运行状况 SLE,则 View Insights (查看见解) 按钮会将您导航到该路由器的 Router Insights (路由器见解) 页面。
在图 1 中,路由器运行状况 SLE 在 99% 以上的时间内满足服务级别目标,而路由器不可达分类器在 100% 的时间内导致路由器运行状况失败。网络、系统和容量分类器处于最佳状态,严重性为 0%。
分析路由器运行状况 SLE 分数
根本原因分析页面提供服务级别故障的分发、时间线和统计信息的可视化效果,并使管理员能够了解这些问题的范围。
单击 View Insights 选项卡以导航到 Insights 选项卡,该选项卡为您提供路由器事件的精细详细信息。现在,您可以使用 Insights ( 见解 ) 选项卡来关联可能影响 SLE 的路由器事件。例如, Config Changed 路由器事件可能导致 CPU 在特定时间段内达到峰值。 Router Disconnected 路由器事件可能导致 Router Unreachable。
单击 Router Health 小组件以导航到根本原因分析页面。单击每个分类器可查看其子分类器。
-
Statistics(统计信息)- Statistics (统计信息) 选项卡显示 SLE 指标的成功率。管理员还可以查看分布图以了解 SLE 的严重性及其影响持续时间。只有在单击 Router Health 小组件时,才能查看 Statistics 选项卡。
-
Timeline (时间线) - Timeline (时间线) 图表表示一段时间内 SLE 失败分钟数的趋势。您可以在图表中移动滑块。
您可以查看 SLE、分类器以及子分类器的时间轴图。当您将鼠标悬停在图表上时,滑块上的弹出窗口会显示该时间段内每个分类器和子分类器的失败分钟数。图形上的彩色垂直条表示各种分类器和子分类器。
您可以查看图表上的图表图例以解释绘制的线条。拖动感兴趣的区域以放大图表。
-
分布 - 使用分布选项卡按各种属性(如整体影响、故障率和异常)分析服务级别故障。distribution 选项卡显示在所选站点上连接的所有路由器的这些属性。
您可以按列标题对表中的列进行排序。单击任何列标题可对其条目进行排序。默认情况下,属性按最异常排序。
介绍了 Distribution (分配) 选项卡上的字段。
表 1:Distribution (分配) 选项卡上的字段 领域
描述
名字
路由器的名称。
整体影响
路由器对 SLE 故障的贡献(以百分比表示)。
失败率
路由器故障率(以百分比表示)。
异常
路由器无法满足服务级别目标的因素。
-
受影响的项目 - 受影响的项目选项卡列出了未能满足服务级别目标的所有路由器。在此选项卡中,您可以查看受影响路由器的详细信息,例如 MAC 地址、型号、故障率等。受影响的项目选项卡还显示未能满足服务级别目标的路由器计数。
您可以按列标题对表中的列进行排序。单击任何列标题可对其条目进行排序。 表 2 描述了 Affected Items 选项卡上的字段。
单击路由器可查看特定路由器的 RCA。RCA 页面现在显示路由器的 SLE 指标。单击 View Insights 选项卡以导航到 Router Insights 页面。使用路由器图表、路由器接口队列和路由器的 BGP 摘要信息进一步调试问题。
表 2:受影响的项目选项卡上的字段 领域
描述
名字
路由器的名称。
苹果电脑
路由器的 MAC 地址。
整体影响
路由器对 SLE 故障的贡献(以百分比表示)。
失败率
路由器故障率(以百分比表示)。
型
路由器型号名称。
版本
路由器上运行的 Junos OS 或 Junos OS Evolved 版本。