使用 SNMP 进行运行状况监控
运行状况监视概述
运行状况监控是一项 SNMP 功能,可扩展 RMON 报警基础架构,以便为一组预定义的对象(例如文件系统使用情况、CPU 使用情况和内存使用情况)以及 Junos OS 进程提供监视。
您可以在层次结构级别使用该[edit snmp]
语句启用health-monitor
运行状况监视器功能。您还可以配置运行状况监视器参数,例如阈值下降、阈值上升和间隔。如果监控对象的值超过上升或下降阈值,则会触发告警并记录事件。
下降阈值是受监控对象实例的下限阈值。上升阈值是监控对象实例的上限阈值。每个阈值表示为最大可能值的百分比。间隔表示对对象实例进行采样并与阈值上升和下降进行比较的时间段(以秒为单位)。
仅当在任何一个方向上首次超过阈值时,而不是在每个采样间隔之后生成事件。例如,如果引发阈值上升警报及其相应事件,则在发生相应的下降警报之前,不会再发生阈值交叉事件。
运行状况监视器事件的系统日志条目具有相应的运行状况监视器标记,而不是通用的 SNMPD_RMON_EVENTLOG 标记。但是,运行状况监视器会发送通用 RMON 上升阈值和下降阈值陷阱。您可以使用操作命令查看 show snmp health-monitor
有关运行状况监视器警报和日志的信息。
配置运行状况监视器时,可以使用某些对象实例的监视信息,如 所示 表 1。
对象 |
Description |
---|---|
jnxHrStoragePercentUsed.1 |
监控 /dev/ad0s1a: 交换机上的文件系统。这是挂载在 / 上的根文件系统。 |
jnxHrStoragePercentUsed.2 |
监控 /dev/ad0s1e: 交换机上的文件系统。这是挂载在 上的 /config配置文件系统。 |
jnxOperatingCPU (RE0) |
通过路由引擎 (RE0) 监控 CPU 使用情况。 |
jnxOperatingBuffer (RE0) |
监控路由引擎 (RE0) 上的可用内存量。 |
sysApplElmtRunCPU |
监控每个 Junos OS 进程(也称为守护程序)的 CPU 使用率。单独监视同一进程的多个实例并为其编制索引。 |
sysApplElmtRunMemory |
监控每个 Junos OS 进程的内存使用情况。单独监视同一进程的多个实例并为其编制索引。 |
另请参阅
在运行 Junos OS 的设备上配置运行状况监控
随着典型网络管理系统 (NMS) 管理的设备数量的增加和设备本身复杂性的增加,NMS 使用轮询来监控设备变得越来越不切实际。一种更具可扩展性的方法是依靠网络设备在需要注意时通知 NMS。
在瞻博网络路由器上,RMON 告警和事件提供了减少 NMS 轮询开销所需的大部分基础设施。但是,使用此方法时,您必须设置 NMS 以将特定 MIB 对象配置为 RMON 警报。这通常需要特定于设备的专业知识和监控应用程序的自定义。此外,某些需要监控的MIB对象实例仅在初始化时设置或在运行时更改,无法提前配置。
为了解决这些问题,运行状况监视器扩展了 RMON 报警基础架构,以便为一组选定的对象实例(针对文件系统使用情况、CPU 使用情况和内存使用情况)提供预定义的监控,并支持未知或动态对象实例(例如 Junos OS 进程)。
运行状况监视旨在最大程度地减少用户配置要求。要配置运行状况监控条目,请在层次结构级别包含 health-monitor
语句 [edit snmp]
:
[edit snmp] health-monitor { falling-threshold percentage; interval seconds; rising-threshold percentage; idp { falling-threshold percentage; interval seconds; rising-threshold percentage; } }
在 [edit snmp health-monitor]
层次结构级别配置监视事件可设置整体系统运行状况的轮询间隔。如果在层次结构级别设置这些相同的选项 [edit snmp health-monitor idp]
,则当入侵检测和防御 (IDP) 系统使用的数据平面内存百分比高于或低于您的设置时,设备将生成 SNMP 事件。
您可以使用操作命令查看 show snmp health-monitor
有关运行状况监视器警报和日志的信息。
本主题介绍所需的最低配置,并讨论配置运行状况监视器的以下任务:
监控对象
配置运行状况监视器时,可以使用某些对象实例的监视信息,如 所示 表 2。
对象 |
Description |
---|---|
|
监控路由器或交换机上的以下文件系统:
这是挂载在 / 上的根文件系统。 |
|
监控路由器或交换机上的以下文件系统:
这是挂载在 上的 |
|
监控路由引擎( |
|
|
|
监控路由引擎( |
|
|
|
监控每个 Junos OS 进程(也称为守护程序)的 CPU 使用率。单独监视同一进程的多个实例并为其编制索引。 |
|
监控每个 Junos OS 进程的内存使用情况。单独监视同一进程的多个实例并为其编制索引。 |
最低运行状况监视配置
要在路由器或交换机上启用运行状况监控,请在层次结构级别包含 health-monitor
以下语句 [edit snmp]
:
[edit snmp] health-monitor;
配置下降阈值或上升阈值
下降阈值是受监控变量的下限阈值(以最大可能值的百分比表示)。当当前采样值小于或等于此阈值,并且上次采样间隔的值大于此阈值时,将生成单个事件。如果此条目生效后的第一个样本小于或等于此阈值,则还会生成单个事件。生成下降事件后,在采样值上升到此阈值以上并达到上升阈值之前,无法生成另一个下降事件。必须将下降阈值指定为最大可能值的百分比。默认值为 70
百分比。
默认情况下,上升阈值是 80
受监视对象实例的最大值的百分比。上升阈值是受监视变量的上限阈值。当当前采样值大于或等于此阈值,并且上次采样间隔的值小于此阈值时,将生成单个事件。如果此条目生效后的第一个样本大于或等于此阈值,则还会生成单个事件。生成上升事件后,在采样值低于此阈值并达到下降阈值之前,无法生成另一个上升事件。必须将上升阈值指定为受监视变量的最大值的百分比。
要配置下降阈值或上升阈值,请在层次结构级别包含 falling-threshold
or rising-threshold
语句 [edit snmp health-monitor]
:
[edit snmp health-monitor] falling-threshold percentage; rising-threshold percentage;
percentage
1
可以是 到 的值100
。
阈值的下降和上升适用于运行状况监视器监控的所有对象实例。
配置间隔
间隔表示对对象实例进行采样并与阈值上升和下降进行比较的时间段(以秒为单位)。
要配置间隔,请包含 interval
语句并指定层次结构级别的秒 [edit snmp health-monitor]
数:
[edit snmp health-monitor] interval seconds;
seconds
1
可以是 到 的值2147483647
。默认值为 300
秒(5 分钟)。
日志条目和陷阱
为任何运行状况监控器事件(超过阈值、错误等)生成的系统日志条目具有相应的 HEALTHMONITOR
标记,而不是通用 SNMPD_RMON_EVENTLOG
标记。但是,运行状况监视器会发送通用 RMON risingThreshold
和 fallingThreshold
陷阱。
另请参阅
配置运行状况监控
本主题介绍如何为 QFX 系列设备配置运行状况监控功能。
运行状况监视器功能扩展了 SNMP RMON 报警基础架构,以便为一组选定的对象实例(例如文件系统使用情况、CPU 使用情况和内存使用情况)和动态对象实例(例如 Junos OS 进程)提供预定义的监控。
在此过程中,采样间隔为每秒( 600
10 分钟),下降阈值是 85
监视的每个对象实例的最大可能值的百分比,上升阈值是 75
监视的每个对象实例的最大可能值的百分比。
要配置运行状况监控: