Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

使用 SNMP 进行运行状况监控(扩展 RMON 报警)

了解运行状况监控

运行状况监控是一项 SNMP 功能,可扩展 RMON 报警基础架构,以便为预定义的一组对象(如文件系统使用、CPU 使用情况和内存使用)和 Junos OS 进程提供监控。

您可使用health-monitor[edit snmp]层次结构级别的语句启用运行状况监控功能。您还可以配置运行状况监控参数,如下降阈值、阈值升高和间隔。如果被监控对象的值超过了升高或下降的阈值,则会触发报警并记录事件。

下降阈值是受监控对象实例的低阈值。上升阈值是受监控对象实例的上限阈值。每个阈值表示为最大可能值的百分比。该间隔表示对象实例取样的时间段(以秒为单位),并与上升和下降阈值进行比较。

仅当在任何一个方向上交叉隔达阈值,而不是在每个采样间隔之后,才会生成事件。例如,如果不断升高的阈值报警及其相应的事件,则在发生相应的下降报警之前,不再发生阈值跨越事件。

运行状况监控器事件的系统日志条目具有相应的 HEALTHMONITOR 标记,而不是通用 SNMPD_RMON_EVENTLOG 标记。但是,运行状况监控器会发送通用 RMON risingThreshold 和 fallingThreshold 陷阱。您可以使用show snmp health-monitor操作命令查看有关运行状况监控报警和日志的信息。

配置运行状况监控器时,某些对象实例的监控信息可用,如中表 1所示。

表 1: 受监控对象实例

对象

Description

jnxHrStoragePercentUsed 1

监控交换机/dev/ad0s1a:上的文件系统。这是安装在/上的根文件系统。

jnxHrStoragePercentUsed 2

监控交换机/dev/ad0s1e:上的文件系统。这是安装在上/config的配置文件系统。

jnxOperatingCPU (RE0)

监控路由引擎的 CPU 使用情况(RE0)。

jnxOperatingBuffer (RE0)

用于监控路由引擎上可用的内存量(RE0)。

sysApplElmtRunCPU

监控每个 Junos OS 进程的 CPU 使用情况(也称为守护程序)。同一进程的多个实例被单独监控和索引。

sysApplElmtRunMemory

监控每个 Junos OS 进程的内存使用情况。对同一流程的多个实例进行监控,并单独进行索引。

配置运行状况监控

本主题介绍如何配置 QFX 系列和 OCX 系列设备的运行状况监控功能。

运行状况监控器功能可扩展 SNMP RMON 报警基础架构,以便为选定的一组对象实例(例如文件系统使用、CPU 使用情况和内存使用)和动态对象实例(如 Junos OS 进程)提供预定义监控。

要配置运行状况监控:

  1. 配置运行状况监控器:
  2. 配置下降阈值:

    例如:

  3. 配置升高阈值:

    例如:

  4. 配置间隔:

    例如:

在运行 Junos OS 的设备上配置运行状况监控

随着典型网络管理系统(NMS)所管理的设备数量的增长以及设备自身的复杂性增加,NMS 在使用轮询来监控设备时变得越来越不切实际。更具可扩展性的方法是依靠网络设备在有需要关注的地方时通知 NMS。

在瞻博网络路由器上,RMON 报警和事件可提供从 NMS 中降低轮询开销所需的众多基础架构。但是,通过这种方法,您必须设置 NMS 才能将特定 MIB 对象配置为 RMON 报警。这通常需要特定于设备的专业知识和自定义监控应用程序。此外,某些需要监控的 MIB 对象实例仅在初始化时设置或在运行时更改,不能提前配置。

为了解决这些问题,运行状况监控器扩展了 RMON 报警基础架构,为选定的一组对象实例(用于文件系统使用、CPU 使用情况和内存使用)提供预定义监控,并支持未知或动态对象实例(例如 Junos OS 进程)。

运行状况监控旨在最小化用户配置要求。要配置运行状况监控条目,请health-monitor将语句包含[edit snmp]在层次结构级别:

[edit snmp health-monitor]层次结构级别配置监控事件设置整体系统健康的轮询间隔。如果在[edit snmp health-monitor idp]层次结构级别设置这些相同的选项,并且入侵检测和防御(IDP)系统使用的 dataplane 内存百分比高于或低于您的设置,则由设备生成 SNMP 事件。

您可以使用show snmp health-monitor操作命令查看有关运行状况监控报警和日志的信息。

本主题介绍最低要求的配置,并讨论以下配置运行状况监控器的任务:

监控对象

配置运行状况监控器时,某些对象实例的监控信息可用,如中表 2所示。

表 2: 受监控对象实例

对象

Description

jnxHrStoragePercentUsed.1

监控路由器或交换机上的以下文件系统:

/dev/ad0s1a:

这是安装在/上的根文件系统。

jnxHrStoragePercentUsed.2

监控路由器或交换机上的以下文件系统:

/dev/ad0s1e:

这是安装在上/config的配置文件系统。

jnxOperatingCPU (RE0)

监控路由引擎的 CPU 使用情况RE0RE1和)。分配给路由引擎的索引值取决于机箱 MIB 使用从零开始还是基于一种索引方案。由于索引方案是可配置的,因此在初始化路由器或交换机时,以及发生配置更改时,将确定正确的索引。如果路由器或交换机只有一台路由引擎,则在尝试获取 CPU RE1值的五次失败后,报警条目监控将被卸下。

jnxOperatingCPU (RE1)

jnxOperatingBuffer (RE0)

监控路由引擎(RE0RE1)上可用的内存量。因为此对象的索引与用于的相同jnxOperatingCPU,所以根据机箱 MIB 中使用的索引方案来调整索引值。与jnxOperatingCPU一样,如果路由器或交换机RE1只有一个路由引擎,报警条目监控将被卸下。

jnxOperatingBuffer (RE1)

sysApplElmtRunCPU

监控每个 Junos OS 进程的 CPU 使用情况(也称为守护程序)。同一进程的多个实例被单独监控和索引。

sysApplElmtRunMemory

监控每个 Junos OS 进程的内存使用情况。对同一流程的多个实例进行监控,并单独进行索引。

最低运行状况监控配置

要在路由器或交换机上启用运行状况监控,请health-monitor将语句包含[edit snmp]在层次结构级别:

配置下降阈值或阈值升高

下降阈值是受监控变量的低阈值(表示为最大可能值的百分比)。当当前采样值小于或等于此阈值时,并且上一次采样间隔的值大于此阈值时,将生成单个事件。如果此条目生效后的第一个样本小于或等于此阈值,则也会生成单个事件。在生成了回退事件之后,在采样值超过此阈值并达到升高的阈值之前,将无法生成另一个回退事件。您必须将下降阈值指定为最大可能值的百分比。默认值为70百分比。

默认情况下,升高的阈值80为受监控对象实例的最大可能值的百分比。升高的阈值是受监控变量的上限阈值。当当前采样值大于或等于此阈值时,并且上一次采样间隔的值小于此阈值时,将生成单个事件。如果此条目生效后的第一个样本大于或等于此阈值,也会生成单个事件。生成升高的事件后,在采样的值低于此阈值并达到下降阈值之前,将无法生成另一个不断上升的事件。您必须将升高的阈值指定为受监控变量的最大可能值的百分比。

要配置下降阈值或阈值升高,请在falling-thresholdrising-threshold[edit snmp health-monitor]层次结构级别包括 or 语句:

percentage可为从1100的值。

下降和上升阈值适用于运行状况监控器监控的所有对象实例。

配置间隔

该间隔表示对象实例取样的时间段(以秒为单位),并与上升和下降阈值进行比较。

要配置间隔,请包括interval语句并指定[edit snmp health-monitor]层次结构级别上的秒数:

seconds可为从12147483647的值。默认值为 300 秒数(5 分钟)。

日志条目和陷阱

为任何运行状况监控事件(超过阈值、错误等)生成的系统日志条目都有相应HEALTHMONITOR的标记,而不是一般SNMPD_RMON_EVENTLOG标记。但是,运行状况监控器会发送通用risingThreshold RMON fallingThreshold和陷阱。

示例:配置运行状况监控

配置运行状况监控器:

在此示例中,采样间隔为每600秒(10分钟),正下降阈值为85监控的每个对象实例的最大可能值的百分比,而升高的75阈值为最大可能值的百分比对于监控的每个对象实例。