Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

交换矩阵弹性

交换矩阵弹性和退化

瞻博网络路由器和交换机具有内置的弹性功能,可应对正常运行过程中遇到的故障和错误情况。JUNOS 软件会立即采取措施来纠正故障情况,从而将流量损失降至最低。无需人工干预。结构退化可能是导致此类错误条件的原因之一。以下部分说明 PFE 如何以可复原的方式从这些故障中恢复。

PTX 系列路由器上的数据包转发引擎错误和恢复

由于以下原因,在 PTX 系列路由器上无法访问数据包转发引擎目标:

  • 交换矩阵交换机接口板 (SIB) 由于 CLI 命令或按下物理按钮而脱机。

  • 由于高温条件,交换矩阵 SIB 由控制板脱机。

  • SIB 中的电压或轮询 I/O 错误由控制板检测。

  • 所有连接的平面上都会发生意外的链路训练错误。

  • 两个数据包转发引擎可以到达交换矩阵,但不能相互访问。

  • 当两个数据包转发引擎与交换矩阵建立连接但不通过公共平面时,会发生链路错误。

从 Junos OS 13.3 版开始,您可以使用 PTX 系列路由器配置与数据包转发引擎 (PFE) 相关的错误级别以及达到指定阈值时要执行的操作。

如果未定义错误级别,PTX 系列路由器将在恢复过程中开始以下阶段:

  1. SIB 重启阶段:路由器尝试通过逐个重启 SIB 来解决问题。如果 SIB 运行正常且单个线卡面临问题,则此阶段不会启动。

  2. SIB 和线卡重新启动阶段:路由器重新启动 SIB 和线卡。如果有些线卡在重新启动后无法启动到交换矩阵的高速链路,则与实时流量丢失无关,因为不会为这些线卡创建接口,从而防止系统出现问题。

  3. 线卡脱机阶段:由于之前的恢复尝试失败,因此线卡和接口将关闭,系统可避免出现问题和错误情况。

T640、T1600 或 TX Matrix 路由器上的数据包转发引擎错误和恢复

由于以下原因,在 T640、T1600 或 TX Matrix 路由器上无法访问数据包转发引擎目标:

  • 交换矩阵交换机接口板 (SIB) 由于 CLI 命令或按下物理按钮而脱机。

  • 由于高温条件,交换矩阵 SIB 由交换机处理器夹层板 (SPMB) 脱机。

  • SPMB 检测 SIB 中的电压或轮询 I/O 错误。

  • 所有数据包转发引擎都会从远程数据包转发引擎接收所有平面上的目标错误,即使 SIB 处于联机状态也是如此。

  • 完全交换矩阵丢失是由目标超时引起的,即使 SIB 处于联机状态也是如此。

恢复过程包括以下阶段:

  1. 路由器将逐个重新启动交换矩阵平面。如果交换矩阵平面运行正常且单个线卡出现问题,则此阶段不会启动。

  2. 交换矩阵平面和线卡重新启动阶段:路由器重新启动 SIB 和线卡。如果有些线卡在重新启动后无法启动到交换矩阵的高速链路,则与实时流量丢失无关,因为不会为这些线卡创建接口,从而防止系统出现问题。

  3. 线卡脱机阶段:由于之前的恢复尝试失败,线卡和接口将关闭,系统可避免导致严重后果的问题和错误情况。

注意:

从 Junos OS 14.2R6 版开始,如果 SIB 由于极端条件(如高压或高温)而脱机,则在恢复过程中,路由器不会重新启动该 SIB 的结构平面。

上面提到的分阶段恢复机制是详尽无遗的,除非存在可能与这些问题相关的其他错误。

从 Junos OS 14.2R6 版开始,您可以通过整合交换矩阵自 ping 和数据包转发引擎活动机制来更好地管理单机箱系统中的结构降级。交换矩阵自 ping 是一种检测交换矩阵数据路径中问题的机制。使用交换矩阵自 ping 机制,当数据包通过交换矩阵路径发送时,每个数据包转发引擎都会确定发往自身的数据包正在到达该数据包。数据包转发引擎活动性是一种检测数据包转发引擎是否可在结构平面上访问的机制。为了验证它是否可访问,数据包转发引擎会定期通过结构平面发送一个自发往的数据包。如果这两种机制检测到任何错误,结构管理器将发出 交换矩阵降级告警 ,并通过重新启动线卡来启动恢复。

MX 系列路由器结构弹性

MX 路由器提供智能机制来减少硬件故障情况下的数据包丢失。MX 系列路由器通过广泛的多层物理、逻辑和协议级弹性方面来确保网络和服务可用性

MX10008提供冗余和弹性。所有主要硬件组件(包括电源系统、冷却系统和控制板)都是完全冗余的。

MX10004电源系统和路由控制板 (RCB) 提供冗余和弹性。

MX2020 和 MX2010 机箱提供冗余和弹性。所有主要硬件组件,包括电源系统、冷却系统、控制板和交换机结构都是完全冗余的。

交换矩阵板 (SFB) 是 MX 路由器机箱中子系统的数据平面。SFB 可创建高度可扩展且具有弹性的“全主动”集中式交换矩阵,为 MX2000 路由器中的每个 MPC 插槽提供高达 4 Tbps 的全双工交换容量。

MX240、MX480 和 MX960 机箱可提供冗余和弹性。硬件系统、电源、风扇托盘、路由引擎和交换机控制板是完全冗余的。

MX304 路由器包含冗余的可插拔路由引擎,最多支持三个线卡 MIC (LMIC)。

本主题包含以下部分,其中介绍了结构弹性选项、使用的故障检测方法和纠正措施:

交换矩阵连接恢复

由于以下原因,数据包转发引擎目标可能变得无法访问:

  • 控制板因 CLI 命令或按下物理按钮而脱机。

  • 交换矩阵控制板因高温而脱机。

  • 交换矩阵中的电压或轮询 I/O 错误。

  • 所有数据包转发引擎都会从远程数据包转发引擎接收所有平面上的目标错误,即使结构处于联机状态也是如此。

  • 目标超时导致的交换矩阵完全丢失,即使交换矩阵处于联机状态也是如此。

当系统检测到任何无法访问的数据包转发引擎目标时,将尝试恢复结构连接。如果恢复失败,系统将关闭接口以触发本地保护操作或在相邻路由器上重新路由流量。

恢复过程包括以下阶段:

  1. 结构平面重新启动阶段:通过逐个重新启动结构平面来尝试还原。如果交换矩阵平面运行正常,并且仅一个线卡报告错误,则此阶段不会启动。将生成一条错误消息,以指定连接断开是交换矩阵平面脱机的原因。此阶段仅针对结构平面错误执行。

  2. 交换矩阵平面和线卡重新启动阶段:系统等待第一阶段完成,然后再次检查系统状态。如果在执行第一阶段后连接未恢复,或者在 10 分钟内问题再次出现,则尝试通过重新启动交换矩阵平面和线卡来恢复连接。如果在层次结构级别将[edit chassis fabric degraded]语句配置为action-fpc-restart-disable在尝试恢复时禁用线卡重新启动,则会触发警报以指示已发生连接丢失。在第二阶段,将采取三个步骤:

    1. PFE 上出现目标错误的所有线卡都将脱机。

    2. 从备用平面开始,交换矩阵平面将逐个脱机并重新联机。

    3. 已脱机的线卡将重新联机。

  3. 线卡脱机阶段:系统等待第二阶段完成,然后再次检查系统状态。通过使线卡脱机和关闭接口来限制连接丢失,因为之前的恢复尝试都失败了。如果重新启动线卡无法解决问题,或者在重新启动线卡后 10 分钟内问题再次出现,则执行此阶段。

这三个相位由定时器控制。在这些阶段,如果某个事件(例如离线/在线线卡或交换矩阵平面)超时,则该阶段将跳过该事件并继续执行下一个事件。计时器控件的超时值为 10 分钟。如果在具有两个或更多线卡的系统中发生第一个结构错误,则会重新启动结构平面。如果在接下来的 10 分钟内再次发生交换矩阵错误,则会重新启动交换矩阵平面和线卡。但是,如果第二个结构错误发生在 10 分钟的超时期限之外,则执行第一阶段,即仅重新启动结构平面。

如果所有目标超时都追溯到某个线卡(例如,一个源线卡或一个目标线卡),则只有该线卡将脱机并联机。交换矩阵平面不会脱机和联机。如果在 10 分钟内发生其他交换矩阵故障,线卡将脱机。

默认情况下,系统通过检测严重降级的结构来限制连接丢失时间。无需用户交互。

交换矩阵降级的线卡

您可以将具有降级交换矩阵的线卡配置为将其移至脱机状态。在 MX10008、MX10004、MX2020、MX2010、MX960、MX480、MX304 或 MX240 路由器上,您可以配置链路错误或结构平面损坏。此配置在部分连接丢失的情况下特别有用,在这种情况下,使线卡脱机会导致更快的重新路由。要在线卡上配置此选项,请在层次结构级别使用该offline-on-fabric-bandwidth-reduction[edit chassis fpc slot-number]语句。有关详细信息,请参阅 MX304 路由器上的结构平面管理、MX10K-LC9600 和 SFB2 上的结构平面管理(型号:JNP10008-SF2)、MX10004 设备上的结构平面管理、JNP10K-LC2101 和 JNP10K-LC480 上的结构平面管理、MX10008 设备上的交换矩阵平面管理和 AS MLC 模块化载卡上的结构平面管理

仅朝向单个目标的连接丢失

在某些部署中,线卡仅表示指向单个目标的连接完全丢失,但它在其他目标上正常运行。识别此类情况并恢复受影响的线卡。考虑一个示例场景,其中线卡 0 和线卡 1 之间的连接中的活动平面为 0,1,2,3,备用平面为 4,5,6,7。如果线卡 0 的平面 0 和 1 出现单链路故障,线卡 1 的平面 2 和 3 出现单链路故障,则两个线卡之间将完全断开连接。线卡 0 和线卡 1 都经历分阶段的恢复模式,并发生交换矩阵修复。

活动控制板上的冗余结构模式

您可以将活动控制板配置为冗余模式或增加结构带宽模式。要为活动控制板配置冗余模式,请在层次结构级别使用该redundancy-mode redundant[edit chassis fabric]语句。

MX 系列路由器上线卡的检测和纠正措施

您可以在 MX 系列路由器(如 MX10008、MX10004、MX2020、MX2010、MX2008、MX960、MX480 或 MX304、MX240 等)上配置要移动到脱机状态的线卡。配置此功能不会影响系统。您可以配置此功能,而无需重新启动线卡或重新启动系统。

将功能配置为禁用线卡时,可能会出现以下情况:

  • 如果线卡由于结构错误而脱机,并且禁用了将线卡移动到脱机状态的功能,则线卡将自动转换为联机状态。

  • 如果线卡由于交换矩阵错误而脱机,并且禁用或为其他线卡配置了将线卡移动到脱机状态的功能,则脱机的线卡将自动转换为联机状态。

  • 配置此设置时脱机的所有线卡都将在层次结构级别下 [edit chassis] 提交任何配置时重新联机。同样,重新启动机箱守护程序或 平滑路由引擎切换 (GRES) 操作也会导致因交换矩阵降级而被禁用的线卡进入联机状态。

当线卡使用少于所需数量的活动交换矩阵平面运行时。如果线卡运行的平面少于四个,则结构流量将以降低的带宽运行。

以下情况可能会导致交换矩阵中的操作带宽减少:

  • 结构控制板由于意外、突然的电源关闭而脱机。

  • 特定于应用的集成电路 (ASIC) 错误,导致控制板的平面自动脱机。

  • 手动使交换矩阵平面或控制板进入脱机状态。

  • 拆卸控制板

  • 任何平面上的自 ping 故障。

  • 活动平面的 HSL2 训练失败。

  • 如果备用交换矩阵平面出现 CRC 错误,并且此备用平面联机,则禁用带有 CRC 错误的链接。此机制可能会导致一个方向上的结构降级,并可能导致另一个方向上的空路由。

  • 当发生自 ping 或 HSL2 训练失败时,结构平面将针对特定线卡禁用,而其他线卡则处于联机状态。这种情况也可能导致空路由。

如果需要在系统维护期间卸下控制板或将交换矩阵平面移动到脱机状态,则必须启用将带宽降级的线卡转换为脱机状态的功能(通过在层次结构级别使用该offline-on-fabric-bandwidth-reduction[edit chassis fpc slot-number]语句)。

当交换矩阵中出现空路由或工作带宽减少时,将执行以下操作纠正措施:

  • 无论备用控制板是否可用,路由引擎都会每隔 5 秒监控每个线卡的自 ping 状态。结构管理器确定是否存在备用控制板

  • 交换矩阵托管在 MX10008、MX10004、MX2020、MX2010 和 MX2000 设备上的交换矩阵板 (SFB) 上:

    • MX10008 路由器有 8 个线卡插槽,最多可支持 768 个 100 千兆以太网端口 (4x100)、192 个 40 千兆以太网端口、192 个 100 千兆以太网端口或 192 个带线卡插槽 0-7 的 400 千兆以太网端口,这些端口将数据包转发引擎 (PFE) 和以太网接口组合在一个组件中。MX10008 支持六块交换矩阵板 (SFB) 有两种型号的 SFB:JNP10008-SF 和 JNP10008-SF2。安装的 SFB 必须与正在运行的机箱中的型号类型相同。

      有关详细信息,请参阅 MX10008设备上的结构平面管理

    • MX10004 具有紧凑的 7-U 模块化机箱、线卡插槽 0-3 硅线卡(2.4 Tbps、480 Gbps 和 9.6 Tbps 吞吐量),具有完全硬件冗余。交换矩阵板 (SFB) 为MX10004创建交换矩阵。每个 SFB 都有一组连接到线卡的连接器,以及连接到交换矩阵的路由和控制板 (RCB)。三个 SFB 为MX10004路由器提供简化的交换功能。六个 SFB 提供完全吞吐量。每个MX10004 SFB 都有四个连接器。每个连接器都与一个线卡插槽匹配,无需背板。

      有关结构平面管理的详细信息,请参阅 MX10004 设备上的结构平面管理

    • MX10003路由器包含模块化路由引擎和 PFE。单个 PFE 同时执行入口和出口数据包转发。路由器提供两个专用线卡插槽。路由器支持一个主板和两个冗余路由和控制板 (RCB)。

    • MX2020 和 MX2010 设备支持 8 个 SFB。MX2020 有 20 个专用线卡插槽。MX2010 路由器有 10 个专用线卡插槽 主机子系统由两个带路由引擎的控制板 (CBRE) 和八个交换矩阵板 (SFB) 组成。数据包通过 SFB 上的交换矩阵 ASIC 在 MPC 之间的背板上传输。

      交换机结构板 (SFB) 为每个插槽提供更高的结构带宽。多达 8 个 SFB、SFB2 或

      SFB3 可以安装在 MX2020 或 MX2010 路由器中。机箱中的所有交换机结构板必须为同一类型。不支持混合模式。

    • MX960 路由器,带有 I 芯片或基于 I 芯片和 Trio 芯片的线卡,包含三个控制板。

    • MX240 或 MX480 路由器,带有 I 芯片或基于 I 芯片和 Trio 芯片的线卡,其中包含两个控制板。

    • 仅包含基于 Trio 的线卡的 MX960、MX480 或 MX240 路由器不被视为包含备用控制板。

    如果在 5 秒的任何此类间隔内,两个线卡指示同一平面出现故障,则切换到备用控制板。在这种情况下,报告错误的控制板将脱机,备用控制板将联机。

  • 如果有备用控制板可用,并且配置了禁用线卡的功能,则路由引擎每隔 5 秒就会监控每个线卡的自 ping 状态。可能会出现以下情况:

    • 在任意 5 秒间隔内,如果只有一个线卡指示平面出现故障,结构管理器将等待下一个间隔。在随后的时间间隔内,如果没有其他线卡指示同一平面出现故障,则执行控制板的切换。

    • 在任何 5 秒间隔内,如果多个线卡显示多个控制板出现故障,结构管理器将等待下一个间隔。在随后的时间间隔内,如果情况相同,则即使存在备用控制板,所有故障线卡也将脱机。

    • 在任何 5 秒间隔内,如果任何线卡显示多个控制板上的多个平面出现故障,结构管理器将等待下一个间隔。在随后的时间间隔内,如果相同的情况仍然存在,即使存在备用控制板,线卡也会脱机。

  • 如果备用平面不可用,则线卡在显示单个平面或多个平面的故障时将脱机。仅当您之前在层次结构级别配置[edit chassis fpc slot-number]了语句时,offline-on-fabric-bandwidth-reduction线卡才会脱机。

了解 T4000 路由器上的交换矩阵故障处理

T4000 路由器由一个交换机接口板 (SIB) 组成,其结构带宽的容量是 T1600 路由器的两倍。交换矩阵故障管理功能与 T1600 路由器类似。本主题介绍 T4000 路由器上的结构故障处理功能。

交换矩阵故障管理功能涉及监控连接到交换矩阵的所有高速链路以及交换矩阵核心内的链路故障和链路错误。

根据故障及其位置采取措施。这些操作包括:

  • 报告系统日志文件中的链路错误,并将此信息发送到路由引擎。

  • 报告灵活端口集中器 (FPC) 或 SIB 的链路故障,并将此信息发送到路由引擎。

  • 在状态中 Check 标记 SIB。

  • 将 SIB 移动到 Fault 状态。

T4000 路由器中的 SIB 构成交换矩阵的核心,具有 4:1 冗余 — 当活动 SIB 不起作用、停用或删除时,冗余 SIB 将变为活动状态。以下是由 Junos OS 监控的结构故障的高级指示:

  • 每当 SIB 报告为 CheckFault时,就会生成 SNMP 陷阱。

  • show chassis alarms- 指示 SIB 处于 CheckFault 状态。

  • show chassis sibs— 指示 SIB 处于或Fault状态,或者 SIB 初始化时 SIB 处于CheckOffline状态(当 SIB 未完全打开电源时,会发生这种情况)。

  • show chassis fabric fpcs— 指示 FPC 端是否有任何结构链路出错。

  • show chassis fabric sibs— 指示 SIB 端是否有任何结构链路出错。

  • /var/log/messages路由引擎上的系统日志消息文件包含前缀CHASSISD_FM_ERROR为 . 的错误消息。

  • SIB 显示 FAIL LED。

注意:

机箱中的结构平面确定机箱是 T640 路由器、T1600 路由器还是 T4000 路由器。电源接入模块 (PEM)、FPC 或风扇托架不能决定机箱特性。如果 T4000 机箱中存在旧的 PEM 或风扇托架,则会发出警报。您可以根据路由器的结构平面来识别路由器:

  • 如果存在的所有飞机都是基于 F16 的 SIB,则机箱为 T640 机箱。

  • 如果存在的所有平面都是基于 SF 的 SIB,则机箱为 T1600 机箱。

  • 如果存在的所有平面都是基于 XF 的 SIB,则机箱为 T4000 机箱。

请注意,除非在升级期间,否则不支持混合结构平面的配置。您可以通过更改所有结构平面并发出 set chassis fabric upgrade-mode CLI 命令来检查个性,无需重新启动即可更改机箱的特性。如果不发出 set chassis fabric upgrade-mode CLI 命令,则在下次启动之前,个性不会更改。

在 T4000 路由器中,您会遇到以下故障:

  • 板级故障 — 这些故障发生在初始化期间或运行时。电路板初始化期间的电源故障、高速链路传输错误和运行时轮询的 I/O 错误是电路板级故障的一些示例。

  • 链路级故障 — 这些故障发生在初始化期间或运行时。初始化时链路训练失败(初始化 FPC 或 SIB 时,FPC 和 SIB 之间的数据平面链路无法训练)、在 SIB 和数据包转发引擎之间的通道上检测到错误、运行时检测到的循环冗余校验 (CRC) 错误以及数据包转发引擎目标错误是链路级故障的类型。

  • 基于环境条件的故障 - 这些故障发生在运行时。突然卸下 FPC 或 SIB 可能会导致操作员错误。当SIB变得太热或SIB电压超过阈值时,产生的误差被归类为环境误差。

您可以实现以下选项之一来处理故障:

  • 记录错误并发出警报。

  • 切换到备用飞机(如果可用)。

  • 继续减少飞机的零件数量。

  • 继续减少可用平面的数量。

  • 使用基于轮询的错误处理。

  • 监控高速链路错误,并手动将链路降低到合适的阈值。

每 500 毫秒监控一次轮询的 I/O 错误和链路错误,每 10 秒监控一次电路板排气温度和电路板电压。

了解数据包传输路由器PTX5000结构故障处理

从 Junos OS 14.1 版开始,PTX5000数据包传输路由器支持 9 个交换机接口板 (SIB)。每个 FPC2-PTX-P1A FPC 支持每插槽 1Tb 的容量,从而实现每秒 16 太比特 (Tbps)、全双工(8 Tbps 的任意对任意、无阻塞、半双工)交换。

交换矩阵故障管理功能涉及监控连接到交换矩阵的所有高速链路以及交换矩阵核心内的链路故障和链路错误。

PTX5000中发生的故障大致可分为:

  • 板故障 — 初始化期间或运行时在 SIB 或灵活端口集中器 (FPC) 中出现的故障,包括路由器组件访问 SIB 或 FPC 时出现的问题,或由中板故障引起的问题。

  • 链路故障 — 初始化期间或运行时在路由器中的高级链路上发生的故障。

  • 环境条件引起的故障 - 由于过压或过热而发生的故障;由于操作员错误处理 SIB 或 FPC 等而发生的故障。

路由器根据故障类别和故障位置采取措施。这些操作包括:

  • 报告系统日志文件中的链路错误,并将此信息发送到路由引擎。

  • 运行 表 1 中列出的操作命令之一时显示链路错误:

    表 1:操作模式命令列表

    操作模式命令

    描述

    show chassis sibs

    显示交换机接口板 (SIB) 状态信息。

    show chassis fabric fpcs <slot number>

    显示指定 FPC 插槽的结构状态。如果未提供插槽编号,则显示所有 FPC 的状态。

    show chassis fabric sibs <slot number>

    显示 SIB 和 FPC 之间的电气开关结构链路的状态。

    show chassis fabric reachability <detail>

    显示结构目标可达性的当前状态。

    show chassis fabric unreachable-destinations

    显示已从可访问状态转换为不可访问状态的目标列表。

    show pfe statistics error

    显示数据包转发引擎错误统计信息。

    show chassis fabric topology <sib_slot>

    显示输入-输出链路拓扑。

    show chassis fabric summary

    显示所有交换矩阵平面的状态和已用正常运行时间。

  • 报告 FPC 级别或 SIB 级别的链路故障,并将此信息发送到路由引擎。

  • 在操作命令中 show chassis alarms 报告链路错误信息。

  • 使 SIB 进入 故障 状态。

以下各节介绍 PTX5000 上的交换矩阵故障处理功能:

SIB 级故障

以下各节简要概述了 SIB 上发生的故障类型以及如何处理它们:

SIB 上发生的故障类型

SIB 在初始化期间和运行时会发生板故障和链路故障。某些故障是由于过压或过热等环境条件或操作员对SIB处理不当而发生的。

注意:

运行 表 1 中列出的操作模式命令以检测故障。

在 SIB 初始化和运行时期间,可能会发生以下错误:

  • 主板故障,例如 SIB 上电故障、ASIC 复位故障、交换机处理器夹层板 (SPMB) 轮询 ASIC 的 I/O 访问故障、主板组件故障(如 PIC 故障)或路由器组件访问故障。

  • 链路故障,例如链路训练期间发生的高级 链路错误。

  • 由于环境条件或操作员对SIB处理不当而发生的故障。

处理 SIB 级故障

以下列表说明了路由器如何处理初始化期间、运行时、由于环境条件以及操作员未正确处理 SIB 而在 SIB 上发生的故障:

  • 要在初始化期间处理 SIB 上的主板故障,机箱守护程序(机箱)会将 SIB 标记为 故障 状态。将 SIB 标记为故障后,此 SIB 上不会发生任何操作。

  • 要在运行时处理 SIB 上的主板故障,机箱会在系统日志文件中记录错误,引发报警指示错误类型,并将 SIB 标记为故障。将 SIB 标记为故障后,此 SIB 上不会发生任何操作。

  • 为了在运行时处理 SIB 上的链路故障,当链路训练期间出现链路错误时,机箱会通知与发生错误的链路对应的 FPC 禁用与受影响 SIB 的链路。然后,机箱会向路由器中的所有其他 FPC 发送错误消息,以停止使用出现故障的 SIB 链路,并生成链路错误警报。请注意,当多个 FPC 报告给定 SIB 的错误时,将对所有 FPC 禁用 SIB,并且数据包转发引擎不会通过受影响的 SIB 发送任何流量。

  • 要在运行时处理 SIB 上的链路故障,机箱会将 SIB 标记为故障并指定错误原因,然后禁用 SIB。

  • 如果发生环境故障(过压或过热),SIB 会立即脱机。请注意,当温度或电压升高时,会定期记录错误,当SIB超过某个阈值电压或温度时,SIB将脱机。

  • 当 SIB 突然被移除或移位时,所有受影响的数据包转发引擎将停止使用该平面访问路由器中的其他数据包转发引擎。

FPC 级故障

以下各节简要概述了 FPC 上发生的故障类型以及如何处理这些故障:

FPC 上发生的故障类型

FPC 在初始化期间和运行时会发生板故障和链路故障。一些故障也是由于环境条件(例如过压、过热或操作员对 FPC 处理不当)而发生的。

注意:

运行 表 1 中列出的操作命令以检测故障。

在 FPC 初始化和运行时,可能会出现以下故障:

  • 电路板故障,例如 FPC 无法上电、ASIC 无法退出复位阶段、PMB 轮询到 ASIC 的 I/O 访问故障、主板组件故障(如 PIC 故障)或路由器组件访问故障。

  • 链路故障,例如链路训练期间发生的高级链路错误。

  • 由于环境条件或操作员对 FPC 处理不当而发生的故障。

处理 FPC 级故障

以下列表说明了路由器如何处理初始化期间、运行时、由于环境条件以及操作员对 FPC 处理不当而在 FPC 上发生的故障:

  • 要在初始化期间处理 FPC 上的主板故障,机箱会将 FPC 标记为 故障 状态。将 SIB 标记为故障后,此 FPC 上不会发生任何操作。

  • 为了在运行时处理 FPC 上的主板故障,机箱会在系统日志文件中记录错误,引发报警指示错误类型,并将 FPC 标记为故障。将 FPC 标记为故障后,此 FPC 上不会发生任何操作。

  • 为了在初始化期间或运行时处理 FPC 上的板载链路错误,FPC 将被关闭,所有受影响的数据包转发引擎将停止使用该平面访问路由器中的其他数据包转发引擎。

    注意:

    初始化期间不会关闭任何平面,因为交换矩阵的链路训练过程尚未完成。

    运行时的板载链路错误将根据当前配置解决;FPC 重新启动或记录错误,然后 FPC 继续初始化。

  • 如果出现环境故障(过压或过热),FPC 会立即脱机。请注意,当温度或电压升高时,会定期记录错误,当FPC超过某个阈值电压或温度时,FPC将脱机。

  • 当 FPC 突然被移除或移开时,所有其他数据包转发引擎将停止向此 FPC 中的数据包转发引擎发送流量。

了解增强型交换矩阵板上的结构故障处理 (SFB2)

MX2000 系列路由器支持交换矩阵板 (SFB) 和增强型 SFB (SFB2),但不能同时支持两者。SFB 和 SFB2 各承载三个交换矩阵平面。因此,机箱总共支持 24 架飞机。Junos OS 15.1F6 和 16.1R1 版支持 SFB 和 SFB2 中每个平面的结构故障处理。在早期版本中,每个 SFB 都支持交换矩阵故障处理,而不是每个平面。

表 2 列出了每个平面和每个 SFB 的交换矩阵故障处理之间的差异。

表 2:SFB 与 SFB2 交换矩阵故障处理

SFB 级别 (SFB)

平面级别(SFB 和 SFB2)

SFB 上任何链路上的循环冗余校验 (CRC) 错误都会显示在 SFB 上。

SFB 或 SFB2 上任何链路上的 CRC 错误都显示在平面上。

遇到目标错误时,线卡会隔离 SFB(所有 3 个平面)。

遇到目标错误时,线卡会隔离相应的平面。其他飞机继续运营。

每个平面的交换矩阵故障处理具有以下优势:

  • 提高粒度,有助于识别、隔离和修复故障。

  • 告警和日志消息按平面而不是按 SFB 提供故障信息,使调试更容易。

  • 如果 SFB 有一个故障平面,则其他两个平面可以继续运行。无需使整个 SFB 脱机。

  • 如果出现暂时性错误,在修复时,您可以隔离单个平面,而不是隔离弹跳的 SFB。

要查看所有 24 个平面的交换矩阵故障处理信息,请将该选项与现有交换矩阵命令一起使用 extended

管理带宽降级

某些错误会导致系统在没有通知的情况下丢弃数据包。其他连接的系统继续将流量转发到受影响的系统,从而影响网络性能。严重降级的交换矩阵平面可能是其中一个原因。

默认情况下,当系统检测到数据包转发引擎存在问题时,瞻博网络路由器会尝试从此类情况开始修复。如果修复失败,系统将关闭接口,从而防止进一步升级。

在 Junos OS 上,您可以使用层次结构中的[edit chassis fpc slot-numberfabric]配置语句bandwidth-degradation,以您认为合适的方式检测并响应结构平面降级。您可以配置路由器以指定在检测到此类情况后路由器应采取的修复操作。您还可以使用可选语句blackhole-action来确定线卡如何响应 100% 交换矩阵降级情况。此命令是可选的,将覆盖默认的结构强化过程。

注意:

bandwidth-degradation命令和offline-on-fabric-bandwidth-reduction语句是互斥的。如果配置了这两个命令,则在提交检查期间将发出错误。

语句 bandwidth-degradation 配置了百分比和操作。该 percent-age 值的范围为 1 到 99,表示触发线卡响应所需的交换矩阵降级百分比。该 action 属性确定交换矩阵降级达到配置百分比后线卡执行的响应类型。

该语句仅配置了一个 action 属性,该属性在结构降级百分比达到 100% 时触发。

以下操作可应用于任一配置语句:

  • log-only:当达到结构降级阈值时,机箱和消息文件中将记录一条消息。不执行其他操作。

  • restart:一旦达到阈值,具有降级交换矩阵平面的线卡将重新启动。

  • offline:一旦达到阈值,具有降级交换矩阵平面的线卡将脱机。线卡需要手动干预才能重新联机。如果未配置操作属性,则这是默认操作。

  • restart-then-offline:一旦达到阈值,具有已降级交换矩阵平面的线卡将重新启动,如果在 10 分钟内再次检测到交换矩阵平面降级,则该线卡将脱机。线卡需要手动干预才能重新联机。

注意:

此功能在 Junos OS 15.1R1 版中可用。

使用 PTX10K-LC1202-36MR 线卡在 PTX10001-36MR、PTX10004、PTX10008和PTX100016上进行结构强化和恢复

PTX10001-36MR、PTX10004、PTX10008 和 PTX100016 路由器支持结构强化。结构强化是一项弹性功能,用于检测结构黑洞并尝试自动恢复过程以将数据包转发引擎从黑洞状态还原。

默认情况下,我们启用了结构强化。当系统检测到任何无法访问的数据包转发引擎目标时,此功能会尝试自动恢复结构连接。

如果恢复失败,系统将关闭接口以限制黑洞并触发警报以指示无法访问的数据包转发引擎目标。但是,用户可以在层次结构级别使用[set chassis fabric event]语句脱机set chassis fabric event reachability-fault actions recovery-failure pfe-offline配置数据包转发引擎,而不是关闭接口。

由于以下原因,数据包转发引擎目标可能变得无法访问:

  • 完全自黑洞 - 所有交换矩阵平面上都会发生完全连接丢失。

  • 完全对等黑洞 - 两个数据包转发引擎可以到达交换矩阵,但不能相互访问。

您可以使用层次结构级别的语句[edit chassis fabric event reachability-fault]degraded路由器配置为在路由器检测到结构带宽下降时触发结构恢复。降级语句配置了一个介于 1 到 99 之间的百分比值。百分比值表示结构带宽降级的错误阈值,一旦达到该阈值,路由器将开始恢复。

配置降级错误阈值后,路由器还可以尝试恢复结构,原因如下:

  • 自我降级 - 数据包转发引擎目标中的交换矩阵状况降级。

  • 对等降级 - 两个数据包转发引擎之间的交换矩阵状况降级。

结构恢复过程涉及以下一个或多个阶段:

  • SIB 重启阶段:如果跨多个线卡的数据包转发引擎目标在平面上出现结构连接故障,则路由器会尝试通过重新启动 SIB 来解决问题。如果多个 SIB 需要重新启动,路由器将逐个重新启动 SIB。

  • FPC 重启阶段:对于以下情况,路由器会通过重启 FPC 来尝试自动恢复:

    • 具有完全或部分黑洞条件的所有数据包转发引擎目标都位于单个 FPC 中。

    • 如果具有完全或部分黑洞情况的数据包转发引擎目标发生在不同的 FPC,但没有一个数据包转发引擎共享公共故障平面。

    • SIB 重新启动阶段的尝试无法恢复数据包转发引擎。

    您可以禁用重新启动 FPC,以限制从降级结构状况开始的恢复操作。若要禁用重新启动 FPC,请在层次结构级别使用该set chassis fabric event reachability-fault actions fpc-restart-disable[set chassis fabric event]语句。

  • 数据包转发引擎脱机阶段:由于先前的恢复阶段尝试失败或在配置中禁用了恢复操作,因此路由器默认关闭接口以限制黑洞。但是,用户可以在层次结构级别使用[set chassis fabric event]语句脱机set chassis fabric event reachability-fault actions recovery-failure pfe-offline配置数据包转发引擎,而不是关闭接口。

如果路由器只有具有对等黑洞或对等降级情况的数据包转发引擎,则路由器会尝试通过重启平面上的结构链路来通过链路自动修复进行恢复。

好处

  • 尝试自动恢复过程,以从降级的结构条件中恢复数据包转发引擎,以最大程度地减少流量丢失。

  • 如果恢复失败,发出警报以提供故障信息,以指示无法访问的数据包转发引擎目标。

禁用线卡重新启动以限制从降级结构条件下执行的恢复操作

您可以禁用线卡重新启动,以限制结构降级情况下的恢复操作。在 T640 和 T1600 路由器上,仅重新启动结构平面。在 PTX 系列路由器上,仅重新启动交换机接口板 (SIB)。要禁用线卡重新启动,请在层次结构级别使用以下action-fpc-restart-disable[edit chassis fabric degraded]语句:

每当禁用线卡重新启动时,当路由器中存在无法访问的目标时,都会发出警报,您必须手动重新启动线卡。

要确保在恢复过程中重新启动结构平面(T640 和 T1600 路由器)或 SIB(PTX 系列路由器)和线卡,请不要在[edit chassis fabric degraded]层次结构级别配置action-fpc-restart-disable语句。

禁用结构带宽降级的 FPC

您可以将交换矩阵带宽降级的 FPC 脱机,以避免长时间在机箱中导致空路由。要配置禁用带宽降级的 FPC 的选项,请在层次结构级别使用以下offline-on-fabric-bandwidth-reduction[edit chassis fpc slot-number]语句:

结构管理器会定期检查当前活动平面的数量。如果活动平面数低于特定路由器所需的活动平面数,系统将等待 10 秒,然后再采取任何纠正措施。如果 FPC 的带宽减少情况仍然存在,并且已为 FPC 配置了此功能,则系统将使 FPC 脱机。

交换矩阵 OAM 的错误处理

交换矩阵操作、管理、维护 (OAM) 有助于检测交换矩阵路径中的故障。每当为 PFE 启动新的交换矩阵路径时,交换矩阵 OAM 都会先验证交换矩阵连接,然后再在交换矩阵平面上发送流量。如果检测到故障,软件将报告故障并避免将该结构平面用于该 PFE。此功能的工作原理是通过在每个可用的交换矩阵平面上发送非常低的每秒数据包 (PPS) 自发往 OAM 流量,并检测端点处的任何流量丢失(交换矩阵自 ping 检查)。

注意:
  • 在 Junos OS 演化版 20.4R1 中,默认情况下启用结构 OAM 功能。您可以使用 CLI 命令 set chassis fabric oam detection-disable禁用该功能。
  • 在 Junos OS 演化版 20.4R2 和 21.1R1 中,默认情况下禁用结构 OAM 功能。
  • 在 Junos OS 演化版 22.1R1 中,运行时结构 OAM 功能默认处于启用状态。您可以使用 CLI 命令 edit chassis fabric oam runtime-disable禁用该功能。PTX10004、PTX10008 和 PTX10016 路由器支持运行时结构 OAM 功能。

结构 OAM 检查在启动时完成。失败的路径将被禁用。系统不执行任何恢复操作。但是,您可以尝试通过重新启动 SIB 来恢复受影响的结构平面。恢复步骤取决于故障的性质。

交换矩阵平面表示 PFE 和交换矩阵 ASIC 之间的独立双向路径。运行时结构 OAM 会定期检查结构连接,并帮助检测和报告系统运行时结构平面中的故障。运行时结构 OAM 检测每个 PFE 的结构可访问性。

当单个或多个 FPC 上的相同结构平面出现故障时,请使用以下命令重新启动包含故障平面的 SIB:

user@host> request chassis sib slot slot-number offline

user@host> request chassis sib slot slot-number online

当多个 FPC 上的随机结构平面发生故障时,无法将故障隔离到特定的 FPC 或 SIB。但是,您可以尝试通过按顺序重新启动包含受影响平面的 SIB 来恢复平面。

对于交换矩阵 OAM 功能检测到的每个错误,都会生成一个系统日志。下面是一个示例:

以下系统日志消息指示已清除与结构 OAM 相关的错误。

此外,还可以使用 CLI 命令 show system errors active detailshow system alarms 查看与结构 OAM 相关的错误。

以下输出显示单交换矩阵平面故障(在数据包转发引擎 0 上)和所有交换矩阵平面故障(在数据包转发引擎 1 上)的详细信息。

您可以使用 CLI 命令 show chassis fabric fpcs 查看每个交换矩阵平面的交换矩阵 OAM 自 ping 状态。

禁用结构 OAM 功能时,该 show chassis fabric fpcs 命令将显示以下输出:

版本历史记录表
释放
描述
14.2R6
从 Junos OS 14.2R6 版开始,如果 SIB 由于极端条件(如高压或高温)而脱机,则在恢复过程中,路由器不会重新启动该 SIB 的结构平面。
14.2R6
从 Junos OS 14.2R6 版开始,您可以通过整合交换矩阵自 ping 和数据包转发引擎活动机制来更好地管理单机箱系统中的结构降级。
14.1
从 Junos OS 14.1 版开始,PTX5000数据包传输路由器支持 9 个交换机接口板 (SIB)。
13.3
从 Junos OS 13.3 版开始,您可以使用 PTX 系列路由器配置与数据包转发引擎 (PFE) 相关的错误级别以及达到指定阈值时要执行的操作。