管理错误
配置 FPC 错误级别和作
您可以使用 MX 系列、PTX 系列和 T Series 路由器在 FPC 上配置与数据包转发引擎 (PFE) 相关的错误级别,以及在达到指定阈值时要执行的作。在 Junos OS 13.2 版及更低版本中,数据包转发引擎错误将禁用 FPC。使用 error 命令时,可以隔离数据包转发引擎错误,从而减少现场替换的需要。使用命令 error ,您可以按严重性对错误进行分类,为每个严重性设置自动恢复作,并配置在达到指定阈值时执行的作。此命令在 [edit chassis fpc slot-number] 和 [edit chassis] 层次结构中可用。
要为 FPC 配置数据包转发引擎错误级别和作:
-
(选答)配置致命错误级别阈值和作。致命错误是导致模块之间的大量流量受阻的错误。
[edit chassis fpc fpc-number error] user@host# set fatal action action user@host# set fatal threshold threshold-level
如果错误的严重性级别是致命的,则在错误总数达到阈值时执行该作。超过阈值后,对于每次出现错误,都会执行一个作。
-
(选答)配置主要错误级别阈值和作。重大错误是导致数据包流量持续丢失但不影响其他模块的错误。
[edit chassis fpc fpc-number error] user@host# set major action action user@host# set major threshold threshold-level
如果错误的严重性级别很大,则在错误总数达到阈值时执行作。超过阈值后,对于每次出现错误,都会执行一个作。
-
(选答)配置次要错误级别阈值和作。轻微错误是导致单个数据包丢失但完全可恢复的错误。
[edit chassis fpc fpc-number error] user@host# set minor action action user@host# set minor threshold threshold-level
如果严重性级别较小,则仅在错误总数达到阈值时执行一次作
MX 系列路由器支持在错误范围和错误类别级别配置错误阈值和作。使用命令 set chassis fpc fpc-slot error scope error-scope category category (fatal | major | minor) threshold error-threshold action (alarm | disable-pfe | get-state | offline | log | reset | trap | online-pfe | reset-pfe) 在 FPC 级别为特定错误范围和类别配置阈值和作。您还可以在机箱级别(层次结构中 [edit chassis] )配置这些功能。但是,在层次结构中 [edit chassis fpc] 配置的阈值和作会覆盖在 [edit chassis] 层次结构中的相同配置。
您可以使用命令 show chassis fpc errors 查看错误范围和类别级别的错误信息。
对于 Junos OS 演化版,您可以使用以下 show 命令查看错误信息:
-
show system errors count- 显示系统范围的错误及其计数。 -
show system errors active- 显示系统中当前的活动错误。 -
show system errors active fpc <slot number>- 显示指定 FPC 的活动错误。 -
show system errors fru detail- 显示特定于 FRU 的详细错误。 -
show system errors fru detail fpc <slot number>- 显示有关基于 FRU 检测到的错误的信息。
如果已针对特定错误阈值配置作 log ,则当错误计数超过设置的阈值时,系统会记录该事件。以下示例系统日志消息指示错误阈值违规以及正在执行的结果作:
Sep 17 23:12:10 sw-s3-u8-03 fpc0 Error: /fpc/0/pfe/0/cm/0/PE_Chip/1/PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR (0x21078b), scope: pfe, category: functional, severity: minor, module: PE Chip, type: Description for PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR Sep 17 23:12:10 sw-s3-u8-03 fpc0 Performing action log for error /fpc/0/pfe/0/cm/0/PE_Chip/1/PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR (0x21078b) in module: PE Chip with scope: pfe category: functional level: minor
offline, reset, disable-pfe, offline-pfe和reset-pfe 作在配置方面是互斥的。如果offline-pfe配置了或reset-pfe ,则自动禁用指定的 PFE。
disable-pfe从 Junos 17.4 及更高版本开始可用。
下表提供有关 PFE 错误映射作和系统响应的详细信息:
| 作 | 响应 |
|---|---|
disable-pfe |
禁用所有 PFE 接口、警报和日志。 |
offline |
使 FPC 脱机,禁用告警和日志。 |
reset |
使 FPC 脱机并重置为联机,启用报警和日志。 |
reset-pfe |
关闭 PFE 电源,禁用警报和日志,然后打开 PFE 电源,启用警报和日志。 |
offline-pfe |
关闭 PFE 电源,禁用告警和日志 |
示例:在 T Series 核心路由器上配置 FPC 错误检测和自我修复
此示例说明如何在使用 Type 5 FPC 的瞻博网络 T Series 核心路由器上配置错误检测和自我修复功能。
要求
此示例使用以下硬件和软件组件:
瞻博网络 T4000 核心路由器,配备 5 类 FPC。
Junos OS 13.3 或更高版本。
在继续作之前,请确保所需的连接已完成且接口正常运行。
概述
FPC 错误检测和自我修复涉及配置要在每个 FPC 上执行的一组作,当特定严重性的错误数增加到超过用户配置的阈值时。错误严重性分为致命、主要和次要。恢复作包括发出警报、生成日志条目、获取 FPC 的当前状态、重新启动 FPC、使 FPC 脱机以及重置 FPC。对于特定的 FPC 和错误严重性,您可以将错误阈值配置为允许限制内的任何值,并将阈值映射到作。在此示例中,您将在瞻博网络 T4000 核心路由器的 FPC 0 上设置这些错误。
配置
配置错误检测和自修复功能,需要设置错误严重性、每个错误严重性对应的阈值,以及超过阈值时要执行的作。
CLI 快速配置
要快速配置此示例,请复制以下命令,将其粘贴到文本文件中,删除所有换行符,更改详细信息以匹配您的网络配置,然后将命令复制并粘贴到 [编辑接口] 层次结构级别的 CLI 中。
set chassis fpc 0 fatal threshold 1 action resetset chassis fpc 0 major threshold 1 action alarmset chassis fpc 0 minor threshold 10 action log
配置错误检测和自我修复
分步过程
下面的示例要求您在各个配置层级中进行导航。有关 CLI 导航的信息,请参阅在 配置模式下使用 CLI 编辑器 和 CLI 用户指南。
为致命错误配置阈值和关联的作。
将错误严重性设置为致命。
[edit interfaces]user@host# set chassis fpc 0 error fatal设置致命错误的阈值。
[edit interfaces]user@host# set chassis fpc 0 error fatal threshold 1设置致命错误的关联作。
[edit interfaces]user@host# set chassis fpc 0 error fatal threshold 1 action reset
配置主要错误的阈值和相关作。
将错误严重性设置为主要。
[edit interfaces]user@host# set chassis fpc 0 error major设置主要错误的阈值。
[edit interfaces]user@host# set chassis fpc 0 error major threshold 1为主要错误设置关联的作。
[edit interfaces]user@host# set chassis fpc 0 error major threshold 1 action alarm
配置阈值和针对次要错误的关联作。
将错误严重性设置为次要。
[edit interfaces][edit interfaces]user@host# set chassis fpc 0 error minor设置次要错误的阈值。
[edit interfaces]user@host# set chassis fpc 0 error minor threshold 10为小错误设置关联的作。
[edit interfaces]user@host# set chassis fpc 0 error minor threshold 10 action log
结果
以下是致命严重性级别的配置结果。
user@host# set chassis fpc 0 error ? Possible completions: + apply-groups Groups from which to inherit configuration data + apply-groups-except Don't inherit configuration data from these groups > fatal FPC Fatal errors (default threshold = 1) > major FPC Major Level errors (default threshold = 1) > minor FPC Minor Level errors (default threshold = 10)user@host# set chassis fpc 0 error fatal action ? Possible completions: alarm Raise FPC alarm get-state Retreive FPC state for debugging log Log occurence to system log file offline Offline FPC offline-pic Offline PICs associated with PFE on FPC reset Reset FPCuser@host# set chassis fpc 0 error fatal action resetuser@host# set chassis fpc 0 error fatal threshold ? Possible completions: <threshold> Error count at which to take the action (0..4294967295)user@host# set chassis fpc 0 error fatal threshold 1
如果完成设备配置,请从配置模式输入 commit 。
验证
要验证配置是否成功以及路由器是否配置了正确的作,请使用命令 show chassis fpc errors 。
验证与 FPC 错误致命严重性相关的配置作
目的
请确保为致命错误设置了阈值和关联的作。
行动
user@host> show chassis fpc errors
FPC Level Occurred Cleared Threshold Action-Taken Action
0 Fatal 0 0 1 RESET
Pfe-State: pfe-0 -ENABLED | pfe-1 -ENABLED | pfe-2 -ENABLED | pfe-3 -ENABLED | pfe-4 -ENABLED | pfe-5 -ENABLED | pfe-6 -ENABLED | pfe-7 -ENABLED |
意义
示例输出显示 Fatal FPC 0 上的错误,其中 0 错误 Occurred (以前没有出现), 0 Cleared 错误(以前没有出现), Threshold 值设置为 1 和 Action-Taken 设置为 RESET。
管理 FPC 错误
在 PTX 系列路由器上,您可以禁用 FPC 错误或在错误 ID 级别修改错误的严重性。请参阅 FPC 自愈 ,了解支持此功能的 PTX 平台的详细信息。
错误 ID 是唯一标识 FPC 错误的,以统一资源标识符 (URI) 格式表示,由模块标识符和错误标识符组成。如果发生错误,可以在系统日志消息中找到错误 ID。
修改错误的严重性
虽然无法配置新的错误严重性,但可以修改错误的现有严重性。例如,如果您不想再将特定错误(由错误 ID 标识)视为致命错误,则可以根据需要将其严重性修改为主要错误或次要错误。
不能在组(例如,类别)级别修改错误严重性。
要修改错误的严重性,请使用以下命令:
user@host# set chassis fpc fpc-slot error error-id severity new-severity
请参阅以下示例:
user@host# set chassis fpc 3 error "/cpu/0/memory/0/ECC_CORRECTED_ERROR" severity minor
在上述示例中,您已将 FPC 3 中错误 ID “/cpu/0/memory/0/memory-uncorrected-error” 的严重性修改为 minor。
禁用错误
要将系统配置为停止报告错误,请识别错误 ID 并禁用它。您可以在系统日志消息中找到错误 ID。若要禁用错误,请使用以下命令:
user@host# set chassis fpc fpc-slot error error-id state disable
请参阅以下示例:
user@host# set chassis fpc 3 error "/cpu/0/memory/0/ECC_CORRECTED_ERROR" state disable
在上述示例中,您在 FPC 3 中禁用了该错误 “/cpu/0/memory/0/memory-uncorrected-error” 。
配置健全性轮询
您可以为特定 FPC、FEB 或 CFEB 配置 sanity-poll 语句,以启动对该 FPC、FEB 或 CFEB 的定期健全性检查。定期健全性检查包括检查错误情况,如“寄存器健全性问题”、“高温”、“硬件故障”等。如果未配置该 sanity-poll 语句,则将禁用健全性轮询。
目前,仅在路由芯片寄存器上执行定期健全性检查。
理智性轮询会定期检查 FPC、FEB 或 CFEB 中的错误情况,并在发生错误时执行适当的措施。
要为 T Series 路由器和 M320 路由器上的 FPC 配置健全性轮询,请在
[edit chassis fpc slot-number]层次结构级别包含语sanity-poll句及其子语句:[edit chassis] fpc slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }要在 M120 路由器上为 FEB 配置健全性轮询,请在
[edit chassis feb slot-number]层次结构级别包括语sanity-poll句及其子语句:[edit chassis] feb slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }要在 M7i 和 M10 路由器上为 CFEB 配置健全性轮询,请在
[edit chassis cfeb slot-number]层次结构级别包含语sanity-poll句及其子语句:[edit chassis] cfeb slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }
在 TX Matrix 或 TX Matrix Plus 路由器上,您可以在层次结构级别配置 sanity-poll 语句 [edit chassis lcc number fpc number] 。
该 sanity-poll 声明包括以下子报表:
该
retry-count语句指定在发生特定错误情况后要执行的重新检查次数。如果所有定期检查中都存在错误,则健全性轮询将报告错误并继续执行适当的作(描述为语句的on-error选项)。例如,如果定期健全性校验检测到 FPC、FEB 或 CFEB 中的错误,并且将
retry count number配置为 15,则健全性轮询不会立即报告错误。理智性轮询会检查 15 次是否存在相同的错误情况。如果错误在所有 15 次重新检查中仍然存在,则它会报告错误并采取适当的作。如果未配置该
retry-count语句,则默认情况下,sanity-poll该语句会重新检查检测到的错误 10 次,然后再报告错误情况。如果健全性轮询检测到错误情况,则
on-error语句会执行适当的作来消除该错误。以下作是所有类型错误情况的通用作:
要生成机箱告警,请配置
raise-alarm语句。机箱报警显示在机箱的前面板上。要在生成核心文件后重新启动 FPC、FEB 或 CFEB,请配置
power cycle语句。此语句对于重新启动后消除的临时软件错误很有用。要停止 FPC、FEB 或 CFEB,请配置
power off语句。在发生永久性硬件故障时,此语句很有用。谨慎:语
power off句将停止 FPC。确保您有通过不同 FPC、FEB 或 CFEB 的备份路径,以避免服务中断。注意:power cycle和power off语句是互斥的:您可以为错误配置或power cycle作power off。要触发核心文件,请配置
write-coredump语句。
您可以为给定的 FPC、FEB 或 CFEB 配置多个作。如果未配置任何作, sanity-poll 则语句将仅生成 FPC、FEB 或 CFEB 系统日志消息。
配置 Junos OS,使灵活的 PIC 集中器保持离线状态
默认情况下,灵活 PIC 集中器 (FPC) 配置为在系统重新启动后重新启动。您可以使用request chassis fpc作模式命令使 FPC 脱机,但在 Junos OS 上,当您输入 commit CLI 命令时,FPC 会尝试重新启动。要将 FPC 配置为保持脱机状态并防止其重新启动,请在[edit chassis fpc slot-number]层次结构级别包含以下power off语句:
[edit chassis fpc slot-number] power off;
要使配置为保持脱机状态的 FPC 联机并将其配置为保持联机状态,请在[edit chassis fpc slot-number]层次结构级别包含以下power on语句:
[edit chassis fpc slot-number] power on;
将 SFM 配置为保持脱机状态
默认情况下,如果使用 request chassis sfm CLI 命令使交换和转发模块 (SFM) 脱机,则当您输入 commit CLI 命令时,SFM 会尝试重新启动。为防止重新启动,可以将 SFM 配置为保持脱机状态。此功能对于维修情况很有用。
要将 SFM 配置为保持脱机状态,请在[edit chassis]层次结构级别包含以下sfm语句:
[edit chassis]
sfm slot-number {
power off;
}
slot number—安装 SFM 的插槽编号。power off- 使 SFM 脱机并将其配置为保持脱机状态。
例如,以下语句使插槽 3 中的 SFM 脱机:
[edit chassis] sfm 3 power off;
show chassis sfm使用 CLI 命令确认脱机状态:
user@host# show chassis sfm Temp CPU Utilization (%) Memory Utilization (%) Slot State (C) Total Interrupt DRAM (MB) Heap Buffer 0 Online 34 2 0 64 16 47 1 Online 38 2 0 64 16 47 2 Online 42 2 0 64 16 47 3 Offline --- Configured power off ---
要使 SFM 重新联机,请删除语 edit chassis sfm 句,然后提交配置。
当 FPC 联机时,将 FPC 序列号与活动 FPC 重新同步
在 M320、T320、T640、T1600、T4000、TX Matrix 和 TX Matrix Plus 路由器上,当您将灵活 PIC 集中器 (FPC) 联机时,FPC 上的序列号可能无法与路由器中的其他活动 FPC 同步,这可能会导致少量初始流量丢失。
为避免任何流量丢失,请在[edit chassis]层次结构级别包含fpc-resync语句。这可确保联机的 FPC 的序列号与路由器中的其他活动 FPC 重新同步。
[edit chassis] fpc-resync;
为了防止空路由过滤,如果同一机箱中存在单个基于 LMNR 的 FPC 以及一个或多个 I 芯片 FPC,则 fpc-resync 命令将无效。
启用路由引擎以在硬盘错误时重新启动
发生硬盘错误时,路由引擎可能会进入一种状态,在这种状态下,它响应本地 ping,接口保持开启,但没有其他进程响应。
要从这种情况中恢复,可以将单个路由引擎配置为在发生硬盘错误时自动重新启动。要启用此功能,请在[edit chassis routing-engine]层次结构级别包含on-disk-failure reboot语句。
[edit chassis routing-engine]
on-disk-failure {
disk-failure-action (halt | reboot);
}
对于双路由引擎环境,您可以将备份路由引擎配置为在检测到主路由引擎上的硬盘错误时自动承担主要角色。要启用此功能,请在[edit chassis redundancy failover]层次结构级别包含on-disk-failure语句。有关此语句的信息,请参阅《Junos OS 高可用性用户指南》。
您可以将路由引擎配置为当路由引擎上的硬盘发生故障时停止(而不是重新启动)。要配置此功能,请在[edit chassis routing-engine on-disk-failure]层次结构级别包含disk-failure-action (halt | reboot)语句:
[edit chassis routing-engine]
on-disk-failure {
disk-failure-action (halt | reboot);
}
使用 halt 选项将路由引擎配置为在硬盘发生故障时停止。使用 重新启动 选项将路由引擎配置为在硬盘发生故障时重新启动。
使用热运行状况检查和 PSM 看门狗处理热运行状况事件
您可以使用热运行状况检查功能来配置在检测到热运行状况事件(如漏电)时要执行的作。热检查功能监视电源模块 (PSM) 的功率输出和 FRU 的功耗,如果检测到 PSM 功率输出超过用户定义阈值的 FRU 功耗,则假定存在热运行状况事件,并根据用户配置采取措施。您可以配置在检测到热健康事件时启动的自动关机或警报等作。配置示例如下: set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700。此示例配置使软件能够在漏电超过 700W 时检测热运行状况事件,并在检测到热运行状况故障 10 秒后关闭系统。
热运行状况检查功能仅在以下情况下有效:
路由器的两个插槽中都安装了高容量交流或直流配电单元 (PDU),并且每个 PDU 具有相同数量的 PSM。AC PSM 和 DC PSM 均受支持。
下面列出了受支持的 PSM 和 PDU:
高容量交流 PSM(型号:PSM2-PTX-AC;固件:0210 或更高版本;硬件版本:06 或更高版本)
高容量 60A DC PSM(型号:PSM2-PTX-DC;固件:0315 或更高版本;硬件版本:09 或更高版本)
高容量 60A DC PDU(型号:PDU2-PTX-DC;使用固件版本 0404 或更高版本的硬件版本 07;使用固件版本 0503 或更高版本的硬件版本 08)
高容量交流台量 PDU(型号:PDU2-PTX-AC-D;固件:0305 或更高版本;硬件版本:04 或更高版本)
高容量AC Wye PDU(型号:PDU2-PTX-AC-W;固件:0305或更高版本;硬件版本:03或更高版本)
高容量单相交流 PDU(型号:PDU2-PTX-AC-SP;固件:0102 或更高版本;硬件版本:03 或更高版本)
每个 PDU 至少有三个联机 PSM,每个联机 PSM 消耗高于 60A 的电流(如果是交流 PSM)或高于 100A 的电流(如果是直流 PSM)。
所有 FRU(RE、SIB 和 FPC)均未处于“当前”状态。
在路由器上,您还可以在 [编辑机箱] 层次结构中配置 PSM 看门狗功能。如果热运行状况事件导致 Junos 宕机,PSM 看门狗功能会检测到该事件并关闭路由器。在看门狗配置中,您可以指定看门狗计时器(以秒为单位)。在指定的持续时间之后,看门狗将过期。您还可以指定 Junos 重置看门狗计数器的频率(以分钟为单位)。如果由于路由引擎崩溃等原因未重置看门狗计数器,PSM 将在看门狗计时器到期时关闭输出电源,从而关闭路由器。
配置示例如下:
- 使用
set chassis psm watchdog timeout 600 pat-frequency 2。此命令启用 PSM 看门狗,并将看门狗计时器设置为 600 秒,并将计数器设置为每 2 分钟重置一次。 - 使用
set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10.。此命令启用热运行状况检查,并在检测到 FET 故障 10 秒后关闭系统。
仅当路由器中的所有联机 PSM 都支持此功能时,PSM 看门狗功能才有效。
简而言之,如果路由引擎软件在发生热事件时正在运行,则热运行状况检查功能将检测热事件并采取行动。但是,如果路由引擎软件在热运行状况事件中宕机,则 PSM 看门狗计时器将检测到此问题并使系统宕机。
变更历史表
是否支持某项功能取决于您使用的平台和版本。使用 功能浏览器 查看您使用的平台是否支持某项功能。