Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

管理错误

配置 FPC 错误级别和操作

从适用于 M320 路由器的 Junos OS 13.3 版或 14.2 版开始,您可以使用 MX 系列、PTX 系列和 T 系列路由器在 FPC 上配置与数据包转发引擎 (PFE) 相关的错误级别,以及在达到指定阈值时要执行的操作。在 Junos OS 13.2 版及更早版本中,数据包转发引擎错误将禁用 FPC。使用该error命令时,可以隔离数据包转发引擎错误,从而减少对字段替换的需求。使用该error命令,您可以根据严重性对错误进行分类,为每个严重性设置自动恢复操作,并配置达到指定阈值时要执行的操作。此命令在 和 [edit chassis] 层次结构中[edit chassis fpc slot-number]可用。

要为 FPC 配置数据包转发引擎错误级别和操作,请执行以下操作:

  • (可选)配置致命错误级别阈值和操作。致命错误是指导致模块之间的大量流量阻塞的错误。

    如果错误的严重性级别为致命,则在错误总数达到阈值时执行该操作。超过阈值后,对于每次出现的错误,都会执行一个操作。

  • (可选)配置主要错误级别阈值和操作。重大错误是指导致数据包流量持续丢失但不影响其他模块的错误。

    如果错误的严重性级别很大,则在错误总数达到阈值时执行该操作。超过阈值后,对于每次出现的错误,都会执行一个操作。

  • (可选)配置次要错误级别阈值和操作。次要错误是指导致单个数据包丢失但完全可恢复的错误。

    如果严重性级别较小,则仅在错误总数达到阈值时执行一次操作

从 Junos OS 18.1R3 版开始,MX 系列路由器支持在错误范围和错误类别级别配置错误阈值和操作。使用该命令 set chassis fpc fpc-slot error scope error-scope category category (fatal | major | minor) threshold error-threshold action (alarm | disable-pfe | get-state | offline | log | reset | trap | online-pfe | reset-pfe) 在 FPC 级别为特定错误范围和类别配置阈值和操作。您还可以在机箱级别(在层次结构) [edit chassis] 配置这些功能。但是,在层次结构中 [edit chassis fpc] 配置的阈值和操作将覆盖在层次结构中 [edit chassis] 配置的相同配置。

可以使用命令 show chassis fpc errors 在错误范围和类别级别查看错误信息。

对于 Junos OS 演化版,您可以使用以下命令 show 查看错误信息:

  • show system errors count- 显示系统范围的错误及其计数。

  • show system errors active- 显示系统中当前的活动错误。

  • show system errors active fpc <slot number> - 显示指定 FPC 的活动错误。

  • show system errors fru detail- 显示特定于 FRU 的详细错误。

  • show system errors fru detail fpc <slot number>- 显示有关基于 FRU 检测到的错误的信息。

如果已针对特定错误阈值配置操作 log ,则当错误计数超过设置的阈值时,系统会记录该事件。以下示例系统日志消息指示错误阈值违反以及正在采取的结果操作:

offline, reset, disable-pfe, offline-pfe在配置方面,和reset-pfe 操作是互斥的。指定的 PFE 将自动禁用(如果offline-pfe配置了 或reset-pfe )。

注意:为 MPC6E 添加了默认的 FPC 主要报警操作。该选项 disable-pfe从 Junos 17.4 及更高版本开始提供。

下表提供了有关 PFE 错误映射操作和系统响应的详细信息:

表 1:PFE 错误映射操作和响应
操作 响应
disable-pfe 禁用所有 PFE 接口、报警和日志。
offline 使 FPC 脱机,禁用警报和日志。
reset 使 FPC 脱机并重置为联机,启用警报和日志。
reset-pfe 关闭 PFE 电源,禁用报警和日志,然后打开 PFE 电源,启用报警和日志。
offline-pfe 关闭 PFE 电源,禁用警报和日志,

示例:在 T 系列核心路由器上配置 FPC 错误检测和自我修复

此示例说明如何在配备 5 类 FPC 的瞻博网络 T 系列核心路由器上配置错误检测和自我修复功能。

要求

此示例使用以下硬件和软件组件:

  • 配备 5 类 FPC 的瞻博网络 T4000 核心路由器。

  • Junos OS 13.3 或更高版本。

在继续操作之前,请确保所需的连接已完成且接口正常工作。

概述

FPC 错误检测和自我修复涉及配置一组操作,当特定严重性的错误数超过用户配置的阈值时,在每个 FPC 上执行。错误严重性分为“严重”、“主要”和“次要”。恢复操作包括引发警报、生成日志条目、获取 FPC 的当前状态、重新启动 FPC、使 FPC 脱机以及重置 FPC。对于特定的 FPC 和错误严重性,可以将错误阈值配置为允许限制内的任何值,并将阈值映射到操作。在此示例中,您将在瞻博网络 T4000 核心路由器的 FPC 0 上设置这些错误。

配置

要配置错误检测和自我修复,您需要设置错误严重性、对应于每个错误严重性的阈值以及超过阈值时要执行的操作。

CLI 快速配置

要快速配置此示例,请复制以下命令,将其粘贴到文本文件中,删除所有换行符,更改任何必要的详细信息以匹配您的网络配置,然后将命令复制并粘贴到 [编辑接口] 层次结构级别的 CLI 中。

配置错误检测和自我修复

分步过程

以下示例要求您在配置层次结构中导航各个级别。有关导航 CLI 的信息,请参阅在 配置模式下使用 CLI 编辑器CLI 用户指南

  • 配置阈值和致命错误的关联操作。

    1. 将错误严重性设置为“致命”。

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal

    2. 设置致命错误的阈值。

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal threshold 1

    3. 为致命错误设置关联的操作。

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal threshold 1 action reset

  • 配置主要错误的阈值和相关操作。

    1. 将错误严重性设置为主要。

      [edit interfaces]

      user@host# set chassis fpc 0 error major

    2. 设置主要错误的阈值。

      [edit interfaces]

      user@host# set chassis fpc 0 error major threshold 1

    3. 为重大错误设置关联的操作。

      [edit interfaces]

      user@host# set chassis fpc 0 error major threshold 1 action alarm

  • 配置阈值和针对次要错误的关联操作。

    1. 将错误严重性设置为次要。

      [edit interfaces]

      [edit interfaces]

      user@host# set chassis fpc 0 error minor

    2. 设置次要错误的阈值。

      [edit interfaces]

      user@host# set chassis fpc 0 error minor threshold 10

    3. 为次要错误设置关联的操作。

      [edit interfaces]

      user@host# set chassis fpc 0 error minor threshold 10 action log

结果

以下是针对致命严重性级别进行配置的结果。

如果完成设备配置,请从配置模式输入 commit

验证

要验证配置是否成功以及路由器是否配置了正确的操作,请使用 show chassis fpc errors 命令。

验证与 FPC 错误的致命严重性相关的已配置操作

目的

确保为致命错误设置阈值和相关操作。

行动
意义

示例输出显示了 FPC 上的错误,其中0Fatal错误Occurred(以前没有出现0),错误Cleared(以前没有Threshold出现),值设置为 1Action-TakenRESET0

管理 FPC 错误

在 PTX 系列路由器上,您可以禁用 FPC 错误或在错误 ID 级别修改错误的严重性。有关支持此功能的 PTX 平台的详细信息,请参阅 FPC 自我修复

error-id 是唯一标识 FPC 错误的,以统一资源标识符 (URI) 格式表示,由模块标识符和错误标识符组成。如果发生错误,您可以在系统日志消息中找到错误 ID。

修改错误的严重性

虽然无法配置新的错误严重性,但可以修改错误的现有严重性。例如,如果不想再将特定错误(由错误 ID 标识)视为致命错误,则可以根据需要将其严重性修改为主要或次要。

注意:

不能在组(例如,类别)级别修改错误严重性。

若要修改错误的严重性,请使用以下命令:

请参阅以下示例:

在上面的示例中,您将 FPC 3 中错误 ID “/cpu/0/memory/0/memory-uncorrected-error” 的严重性修改为 minor

禁用错误

要将系统配置为停止报告错误,请确定错误 ID 并将其禁用。您可以在系统日志消息中找到错误 ID。若要禁用错误,请使用以下命令:

请参阅以下示例:

在上面的示例中,您禁用了 FPC 3 中的错误 “/cpu/0/memory/0/memory-uncorrected-error”

关闭数据包转发引擎的电源

您可以打开或关闭正在运行的系统中的数据包转发引擎的电源,或者在 FPC 联机时关闭数据包转发引擎的电源。以下是使用此功能的几种方案。

  • 当数据包转发引擎 ASIC 出现故障时。

  • 在部署不需要系统全部容量的情况下节省电力。

要关闭数据包转发引擎的电源,请使用以下步骤:

要打开数据包转发引擎的电源,请使用以下步骤:

注意:

您需要将此配置应用于 ASIC 中的两个数据包转发引擎,才能提交配置。

注意:

在配备 MPC10E-15C-MRATE 的 MX 系列路由器上,只能关闭或打开数据包转发引擎 2 的电源。数据包转发引擎 0 和 1 不支持此命令。在 MPC10E-15C-MRATE 上,操作数据包转发引擎 2 需要数据包转发引擎 0 和 1 正常工作。您可以使用命令 show chassis fpc fpc-lot detail 查看MPC10E-15C-MRATE中数据包转发引擎的电源开/关状态和带宽。

您可以使用命令 show chassis fpc fpc-slot detail 查看数据包转发引擎开机/关机配置状态。请参阅以下示例:

配置健全性轮询

您可以为特定 FPC、FEB 或 CFEB 配置语句, sanity-poll 以启动对该 FPC、FEB 或 CFEB 的定期健全性检查。定期健全性检查包括检查错误情况,例如“寄存器健全性问题”、“高温”、“硬件故障”等。如果未配置 sanity-poll 该语句,则会禁用健全性轮询。

注意:

目前,定期健全性检查仅在路由芯片寄存器上执行。

健全性轮询会定期检查 FPC、FEB 或 CFEB 中的错误情况,并在发生错误时执行适当的操作。

  • 要在 T 系列路由器和 M320 路由器上为 FPC 配置健全性轮询,请在层次结构级别包括 sanity-poll 该语句及其子语句 [edit chassis fpc slot-number]

  • 要在 M120 路由器上为 FEB 配置健全性轮询,请在层次结构级别包括[edit chassis feb slot-number]sanity-poll语句及其子语句:

  • 要在 M7i 和 M10 路由器上为 CFEB 配置健全性轮询,请在层次结构级别包含 sanity-poll 语句及其子语句 [edit chassis cfeb slot-number]

注意:

在 TX Matrix 或 TX Matrix Plus 路由器上,您可以在层次结构级别配置 sanity-poll 语句 [edit chassis lcc number fpc number]

sanity-poll 语句包含以下子语句:

  • retry-count 语句指定在特定错误条件发生后要执行的重新检查次数。如果所有定期检查中都存在错误,则健全性轮询会报告错误并继续执行相应的操作(称为语句的选项 on-error )。

    例如,如果定期健全性检查在 FPC、FEB 或 CFEB 中检测到错误,并且将 配置为 retry count number 15,则健全性轮询不会立即报告错误。健全性轮询检查 15 次相同的错误条件。如果错误在所有 15 次重新检查中仍然存在,则会报告错误并采取适当的措施。

    如果未配置 retry-count 该语句,则默认情况下,该 sanity-poll 语句会重新检查检测到的错误 10 次,然后再报告错误条件。

  • 如果健全性轮询检测到错误条件,则该语句将 on-error 执行适当的操作来消除错误。

    以下操作对于所有类型的错误情况都是通用的:

    • 要生成机箱告警,请配置语句 raise-alarm 。机箱报警显示在机箱的前面板中。

    • 要在生成核心文件后重新启动 FPC、FEB 或 CFEB,请配置语句 power cycle 。此语句对于重新启动后消除的临时软件错误很有用。

    • 要停止 FPC、FEB 或 CFEB,请配置语句 power off 。此语句在出现永久性硬件故障时很有用。

      谨慎:

      power off 语句将停止 FPC。确保您有通过其他 FPC 或 FEB 或 CFEB 的备份路径,以避免服务中断。

      注意:

      power cyclepower off语句是互斥的:您可以为错误配置 power cyclepower off 操作。

    • 要触发核心文件,请配置语句 write-coredump

您可以为给定的 FPC、FEB 或 CFEB 配置多个操作。如果未配置任何操作, sanity-poll 则该语句仅生成 FPC 或 FEB 或 CFEB 系统日志消息。

配置 Junos OS 以使灵活的 PIC 集中器保持脱机状态

默认情况下,灵活 PIC 集中器 (FPC) 配置为在系统重新启动后重新启动。您可以使用 request chassis fpc 操作模式命令使 FPC 脱机,但在 Junos OS 上,当您输入 commit CLI 命令时,FPC 会尝试重新启动。要将 FPC 配置为保持脱机状态并防止其重新启动,请在层次结构级别包含 power off 语句 [edit chassis fpc slot-number]

若要使配置为保持脱机状态的 FPC 联机并将其配置为保持联机,请在层次结构级别包含 power on 语句 [edit chassis fpc slot-number]

配置 SFM 以保持脱机

默认情况下,如果使用 CLI 命令使 request chassis sfm 交换和转发模块 (SFM) 脱机,则当您输入 commit CLI 命令时,SFM 会尝试重新启动。要防止重新启动,您可以将 SFM 配置为保持脱机状态。此功能对于修复情况很有用。

要将 SFM 配置为保持脱机状态,请在层次结构级别包含sfm[edit chassis]语句:

  • slot number— 安装 SFM 的插槽编号。

  • power off- 使 SFM 脱机并将其配置为保持脱机状态。

例如,以下语句使插槽 3 中的 SFM 脱机:

使用 show chassis sfm CLI 命令确认脱机状态:

要使 SFM 重新联机,请删除该 edit chassis sfm 语句,然后提交配置。

当 FPC 联机时,将 FPC 序列号与活动 FPC 重新同步

在 M320、T320、T640、T1600、T4000、TX Matrix 和 TX Matrix Plus 路由器上,当您使灵活 PIC 集中器 (FPC) 联机时,FPC 上的序列号可能不会与路由器中的其他活动 FPC 同步,这可能会导致少量初始流量丢失。

为避免任何流量丢失,请在层次结构级别包含fpc-resync[edit chassis]语句。这可确保联机的 FPC 的序列号与路由器中的其他活动 FPC 重新同步。

注意:

为了防止空路由过滤, fpc-resync 如果同一机箱中存在单个基于 LMNR 的 FPC 和一个或多个 I-chip FPC,则该命令将不起作用。

启用路由引擎在硬盘错误时重新启动

发生硬盘错误时,路由引擎可能会进入响应本地 ping 且接口保持开启状态,但没有其他进程响应。

要从这种情况中恢复,您可以将单个路由引擎配置为在发生硬盘错误时自动重新启动。要启用此功能,请在层次结构级别包含 on-disk-failure reboot 语句 [edit chassis routing-engine]

对于双路由引擎环境,您可以将备份路由引擎配置为在主路由引擎上检测到硬盘错误时自动承担主要角色。要启用此功能,请在层次结构级别包含 on-disk-failure 语句 [edit chassis redundancy failover] 。有关此语句的信息,请参阅 Junos OS 高可用性用户指南

您可以将路由引擎配置为在路由引擎上的硬盘出现故障时停止(而不是重新启动)。要配置此功能,请在层次结构级别包含 disk-failure-action (halt | reboot) 语句 [edit chassis routing-engine on-disk-failure]

使用 halt 选项将路由引擎配置为在硬盘出现故障时停止。使用 重新启动 选项将路由引擎配置为在硬盘出现故障时重新启动。

使用热健康检查和 PSM 看门狗处理热健康事件

您可以使用热运行状况检查功能配置在检测到热运行状况事件(如漏电)时要采取的操作。热量检查功能监视电源模块 (PSM) 功率输出和 FRU 功耗,如果检测到 PSM 功率输出超出用户定义的阈值的 FRU 功耗,则假定存在热运行状况事件,并根据用户配置采取措施。您可以配置自动关机或警报等操作,以便在检测到热运行状况事件时启动。配置示例如下: set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700。此示例配置使软件能够在电源泄漏超过 700W 时检测热运行状况事件,并在检测到热运行状况故障 10 秒后关闭系统。

热运行状况检查功能仅在以下情况下有效:

  • 路由器在两个插槽中都安装了高容量 AC 或 DC 配电单元 (PDU),并且每个 PDU 具有相同数量的 PSM。支持交流 PSM 和直流 PSM。

    下面列出了支持的 PSM 和 PDU:

    • 高容量交流 PSM(型号:PSM2-PTX-AC;固件:0210 或更高版本;硬件版本:06 或更高版本)

    • 高容量 60A DC PSM(型号:PSM2-PTX-DC;固件:0315 或更高版本;硬件版本:09 或更高版本)

    • 高容量 60A DC PDU(型号:PDU2-PTX-DC;硬件修订版 07 使用固件版本 0404 或更高版本;硬件修订版 08 使用固件版本 0503 或更高版本)

    • 高容量交流三角形 PDU(型号:PDU2-PTX-AC-D;固件:0305 或更高版本;硬件版本:04 或更高版本)

    • 高容量交流星形 PDU(型号:PDU2-PTX-AC-W;固件:0305 或更高版本;硬件版本:03 或更高版本)

    • 高容量单相交流 PDU(型号:PDU2-PTX-AC-SP;固件:0102 或更高版本;硬件版本:03 或更高版本)

  • 每个 PDU 至少有三个在线的 PSM,每个在线 PSM 消耗的电流高于 60A(对于交流 PSM)或高于 100A 的电流(对于直流 PSM)。

  • 所有 FRU(RE、SIB 和 FPC)均未处于“当前”状态。

在路由器上,您还可以在 [编辑机箱] 层次结构中配置 PSM 看门狗功能。如果热运行状况事件导致 Junos 出现故障,PSM 看门狗功能会检测到该事件并关闭路由器。在监视器配置中,可以指定监视器计时器(以秒为单位)。在指定的持续时间之后,监视器将过期。您还可以指定 Junos 重置监视器计数器的频率(以分钟为单位)。如果由于路由引擎崩溃等原因导致看门狗计数器未重置,PSM 将在看门狗定时器到期时关闭输出电源,从而关闭路由器。

配置示例如下:

  • 使用 set chassis psm watchdog timeout 600 pat-frequency 2.此命令启用 PSM 监视器,将监视器计时器设置为 600 秒,计数器设置为每 2 分钟重置一次。
  • 使用 set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10..此命令可在检测到 FET 故障 10 秒后启用热运行状况检查并关闭系统。
注意:

仅当路由器中的所有在线 PSM 都支持此功能时,PSM 看门狗功能才有效。

简而言之,如果发生过热事件时路由引擎软件正在运行,则过热运行状况检查功能会检测到过热事件并采取措施。但是,如果路由引擎软件在热运行状况事件中出现故障,则 PSM 看门狗计时器会检测到此问题并关闭系统。

更改历史记录表

功能支持由您使用的平台和版本决定。使用 功能资源管理器 确定您的平台是否支持某个功能。

释放
描述
13.3
从适用于 M320 路由器的 Junos OS 13.3 版或 14.2 版开始,您可以使用 MX 系列、PTX 系列和 T 系列路由器在 FPC 上配置与数据包转发引擎 (PFE) 相关的错误级别,以及在达到指定阈值时要执行的操作。