Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

使用 SNMP 进行运行状况监控

运行状况监视概述

运行状况监控是一项 SNMP 功能,可扩展 RMON 报警基础架构,以便为一组预定义的对象(例如文件系统使用情况、CPU 使用情况和内存使用情况)以及 Junos OS 进程提供监视。

您可以在层次结构级别使用该语句启用运行状况监视器功能。health-monitor[edit snmp] 您还可以配置运行状况监视器参数,例如阈值下降、阈值上升和间隔。如果监控对象的值超过上升或下降阈值,则会触发告警并记录事件。

下降阈值是受监控对象实例的下限阈值。上升阈值是监控对象实例的上限阈值。每个阈值表示为最大可能值的百分比。间隔表示对对象实例进行采样并与阈值上升和下降进行比较的时间段(以秒为单位)。

仅当在任何一个方向上首次超过阈值时,而不是在每个采样间隔之后生成事件。例如,如果引发阈值上升警报及其相应事件,则在发生相应的下降警报之前,不会再发生阈值交叉事件。

运行状况监视器事件的系统日志条目具有相应的运行状况监视器标记,而不是通用的 SNMPD_RMON_EVENTLOG 标记。但是,运行状况监视器会发送通用 RMON 上升阈值和下降阈值陷阱。您可以使用操作命令查看 有关运行状况监视器警报和日志的信息。show snmp health-monitor

配置运行状况监视器时,可以使用某些对象实例的监视信息,如 所示 。表 1

表 1: 受监控对象实例

对象

Description

jnxHrStoragePercentUsed.1

监控 交换机上的文件系统。/dev/ad0s1a: 这是挂载在 / 上的根文件系统。

jnxHrStoragePercentUsed.2

监控 交换机上的文件系统。/dev/ad0s1e: 这是挂载在 上的 配置文件系统。/config

jnxOperatingCPU (RE0)

通过路由引擎 (RE0) 监控 CPU 使用情况。

jnxOperatingBuffer (RE0)

监控路由引擎 (RE0) 上的可用内存量。

sysApplElmtRunCPU

监控每个 Junos OS 进程(也称为守护程序)的 CPU 使用率。单独监视同一进程的多个实例并为其编制索引。

sysApplElmtRunMemory

监控每个 Junos OS 进程的内存使用情况。单独监视同一进程的多个实例并为其编制索引。

在运行 Junos OS 的设备上配置运行状况监控

随着典型网络管理系统 (NMS) 管理的设备数量的增加和设备本身复杂性的增加,NMS 使用轮询来监控设备变得越来越不切实际。一种更具可扩展性的方法是依靠网络设备在需要注意时通知 NMS。

在瞻博网络路由器上,RMON 告警和事件提供了减少 NMS 轮询开销所需的大部分基础设施。但是,使用此方法时,您必须设置 NMS 以将特定 MIB 对象配置为 RMON 警报。这通常需要特定于设备的专业知识和监控应用程序的自定义。此外,某些需要监控的MIB对象实例仅在初始化时设置或在运行时更改,无法提前配置。

为了解决这些问题,运行状况监视器扩展了 RMON 报警基础架构,以便为一组选定的对象实例(针对文件系统使用情况、CPU 使用情况和内存使用情况)提供预定义的监控,并支持未知或动态对象实例(例如 Junos OS 进程)。

运行状况监视旨在最大程度地减少用户配置要求。要配置运行状况监控条目,请在层次结构级别包含 语句 :health-monitor[edit snmp]

在 层次结构级别配置监视事件可设置整体系统运行状况的轮询间隔。[edit snmp health-monitor] 如果在层次结构级别设置这些相同的选项 ,则当入侵检测和防御 (IDP) 系统使用的数据平面内存百分比高于或低于您的设置时,设备将生成 SNMP 事件。[edit snmp health-monitor idp]

您可以使用操作命令查看 有关运行状况监视器警报和日志的信息。show snmp health-monitor

本主题介绍所需的最低配置,并讨论配置运行状况监视器的以下任务:

监控对象

配置运行状况监视器时,可以使用某些对象实例的监视信息,如 所示 。表 2

表 2: 受监控对象实例

对象

Description

jnxHrStoragePercentUsed.1

监控路由器或交换机上的以下文件系统:

/dev/ad0s1a:

这是挂载在 / 上的根文件系统。

jnxHrStoragePercentUsed.2

监控路由器或交换机上的以下文件系统:

/dev/ad0s1e:

这是挂载在 上的 配置文件系统。/config

jnxOperatingCPU (RE0)

监控路由引擎(和)的 CPU 使用率。RE0RE1 分配给路由引擎的索引值取决于机箱 MIB 使用的是从零开始还是从 1 开始的索引方案。由于索引方案是可配置的,因此在初始化路由器或交换机以及进行配置更改时确定正确的索引。如果路由器或交换机只有一个路由引擎,则在尝试获取 CPU 值失败五次后,将移除告警入口监控 。RE1

jnxOperatingCPU (RE1)

jnxOperatingBuffer (RE0)

监控路由引擎(和)上的可用内存量。RE0RE1 由于此对象的索引与用于 的 索引相同,因此将根据机箱 MIB 中使用的索引方案调整索引值。jnxOperatingCPU 与 一样 ,如果路由器或交换机只有一个路由引擎,则会移除告警入口监控 。jnxOperatingCPURE1

jnxOperatingBuffer (RE1)

sysApplElmtRunCPU

监控每个 Junos OS 进程(也称为守护程序)的 CPU 使用率。单独监视同一进程的多个实例并为其编制索引。

sysApplElmtRunMemory

监控每个 Junos OS 进程的内存使用情况。单独监视同一进程的多个实例并为其编制索引。

最低运行状况监视配置

要在路由器或交换机上启用运行状况监控,请在层次结构级别包含 以下语句 :health-monitor[edit snmp]

配置下降阈值或上升阈值

下降阈值是受监控变量的下限阈值(以最大可能值的百分比表示)。当当前采样值小于或等于此阈值,并且上次采样间隔的值大于此阈值时,将生成单个事件。如果此条目生效后的第一个样本小于或等于此阈值,则还会生成单个事件。生成下降事件后,在采样值上升到此阈值以上并达到上升阈值之前,无法生成另一个下降事件。必须将下降阈值指定为最大可能值的百分比。默认值为 百分比。70

默认情况下,上升阈值是 受监视对象实例的最大值的百分比。80 上升阈值是受监视变量的上限阈值。当当前采样值大于或等于此阈值,并且上次采样间隔的值小于此阈值时,将生成单个事件。如果此条目生效后的第一个样本大于或等于此阈值,则还会生成单个事件。生成上升事件后,在采样值低于此阈值并达到下降阈值之前,无法生成另一个上升事件。必须将上升阈值指定为受监视变量的最大值的百分比。

要配置下降阈值或上升阈值,请在层次结构级别包含 or 语句 :falling-thresholdrising-threshold[edit snmp health-monitor]

可以是 到 的值。percentage1100

阈值的下降和上升适用于运行状况监视器监控的所有对象实例。

配置间隔

间隔表示对对象实例进行采样并与阈值上升和下降进行比较的时间段(以秒为单位)。

要配置间隔,请包含 语句并指定层次结构级别的秒 数:interval[edit snmp health-monitor]

可以是 到 的值。seconds12147483647 默认值为 秒(5 分钟)。300

日志条目和陷阱

为任何运行状况监控器事件(超过阈值、错误等)生成的系统日志条目具有相应的 标记,而不是通用 标记。HEALTHMONITORSNMPD_RMON_EVENTLOG 但是,运行状况监视器会发送通用 RMON 和 陷阱。risingThresholdfallingThreshold

配置运行状况监控

本主题介绍如何为 QFX 系列设备配置运行状况监控功能。

运行状况监视器功能扩展了 SNMP RMON 报警基础架构,以便为一组选定的对象实例(例如文件系统使用情况、CPU 使用情况和内存使用情况)和动态对象实例(例如 Junos OS 进程)提供预定义的监控。

在此过程中,采样间隔为每秒(10 分钟),下降阈值是监视的每个对象实例的最大可能值的百分比,上升阈值是监视的每个对象实例的最大可能值的百分比。6008575

要配置运行状况监控:

  1. 配置运行状况监视器:
  2. 配置下降阈值:

    例如:

  3. 配置上升阈值:

    例如:

  4. 配置间隔:

    例如: