Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

交换矩阵弹性

交换矩阵的弹性和退化

瞻博网络路由器和交换机具有内置的弹性,可以应对正常运行期间遇到的故障和错误情况。JUNOS 软件会立即采取措施来补救故障情况,从而将流量损失降至最低。无需手动干预。结构退化可能是导致此类错误情况的原因之一。以下各节将介绍 PFE 如何以弹性方式从这些故障中恢复。

PTX 系列路由器上的数据包转发引擎错误和恢复

由于以下原因,数据包转发引擎目标可能无法在 PTX 系列路由器上访问:

  • 由于 CLI 命令,交换矩阵交换机接口板 (SIB) 处于脱机状态。

  • 由于高温条件,控制板会使交换矩阵 SIB 脱机。

  • 控制板检测 SIB 中的电压或轮询 I/O 错误。

  • 所有连接的平面上都会发生意外的链路训练错误。

  • 两个数据包转发引擎可以到达交换矩阵,但不能相互访问。

  • 当两个数据包转发引擎与交换矩阵建立连接但未通过公共平面连接时,就会发生链路错误。

从 Junos OS 13.3 版开始,您可以使用 PTX 系列路由器配置与数据包转发引擎 (PFE) 相关的错误级别,以及在达到指定阈值时要执行的操作。

如果未定义错误级别,PTX 系列路由器将开始恢复过程中的以下阶段:

  1. SIB 重启阶段:路由器尝试通过逐个重启 SIB 来解决问题。如果 SIB 运行正常且单个线卡面临问题,则此阶段不会启动。

  2. SIB 和线卡重启阶段:路由器重启 SIB 和线卡。如果有些线卡在重新启动后无法启动到交换矩阵的高速链路,则与实时流量丢失无关,因为系统不会为这些线卡创建接口,从而防止系统出现问题。

  3. 线卡脱机阶段:由于之前的恢复尝试失败,线卡和接口将关闭,系统将避免出现问题和错误情况。

退化交换矩阵的弹性和自动恢复

从 Junos Evolved 23.4R1 版开始,交换矩阵自动恢复功能可用于限制数据丢失。执行的恢复操作包括 FRU 重启、链路重启等。

在 FRU 级别尝试以下三阶段交换矩阵恢复操作:

1. 使用 SIB 重启恢复 FRU 级别。

2. 使用 FPC 重启或 PFE 重启进行 FRU 级别恢复。

3. 对不可恢复的 PFE、IFD 禁用或 PFE 脱机的操作。

注意:对于不支持 PFE 重启的平台,FPC 重启将作为默认操作提供。

针对 SIB 故障情况的交换矩阵恢复操作: 对于由于 SIB 缺失(用户驱动脱机或系统上电期间 SIB 不存在)而导致的可访问性故障,交换矩阵弹性不会尝试恢复。在不支持交换矩阵恢复的系统中,会为可访问性故障生成机箱告警。

PTX 系列路由器(PTX10004、PTX10008 和 PTX10016 路由器)上的 PFE 级别恢复操作

对于可以支持 PFE 重启的平台,PFE 重启将添加为默认的第 2 阶段恢复操作。

注意:在具有多个 PFE 的 ASIC 中,重启会影响 PPFE(每平面 PFE),类似于 PFE 脱机操作。
第 2 阶段操作的恢复决策是针对以下任一方案做出的:
  • 具有可访问性故障的 PFE 都驻留在单个 FPC 中。
  • 具有可访问性故障(在一个或多个 FPC 中)且无常见故障的 PFE。

在第 1 阶段恢复后,对尚未从可访问性故障中恢复的 PPFE 尝试第 2 阶段恢复。

如果 FPC 中具有自可达性故障的 PFE 数量等于或超过 PFE 的 50%,则 FPC 将重新启动。

使用以下 CLI 选项手动配置默认 PFE 重启操作:

下表显示了根据 FPC 中发生故障的 PFE 的配置和数量,在第 2 阶段恢复时执行的操作。

恢复决策 FPC 中涉及的 PFE 数量 支持 PFE 重启 PFE 重启禁用 FPC 重启禁用 行动
第 2 阶段行动 <= 50% 是的 x PFE 重启
第 2 阶段行动 <= 50% 是的 是的 FPC 重启
第 2 阶段行动 <= 50% 是的 是的 是的 PFE 重启
第 2 阶段行动 >50% 是的 x FPC 重启
第 2 阶段行动 >50% 是的 是的 是的 PFE 重启
第 2 阶段行动 >50% 是的 是的 PFE 重启

T640、T1600 或 TX Matrix 路由器上的数据包转发引擎错误和恢复

由于以下原因,T640、T1600 或 TX Matrix 路由器可能无法访问数据包转发引擎目标:

  • 交换矩阵交换机接口板 (SIB) 由于 CLI 命令或按下物理按钮而处于脱机状态。

  • 由于高温条件,交换机处理器夹层板 (SPMB) 使交换矩阵 SIB 脱机。

  • SPMB 检测 SIB 中的电压或轮询 I/O 错误。

  • 所有数据包转发引擎都从远程数据包转发引擎接收所有平面上的目标错误,即使 SIB 处于在线状态也是如此。

  • 完全的交换矩阵丢失是由目标超时引起的,即使 SIB 处于联机状态也是如此。

恢复过程包括以下几个阶段:

  1. 路由器逐个重新启动交换矩阵平面。如果结构平面工作正常且单个线卡出现问题,则此阶段不会启动。

  2. 结构平面和线卡重启阶段:路由器重启 SIB 和线卡。如果有些线卡在重新启动后无法启动到交换矩阵的高速链路,则与实时流量丢失无关,因为系统不会为这些线卡创建接口,从而防止系统出现问题。

  3. 线卡脱机阶段:由于之前的恢复尝试失败,线卡和接口将关闭,系统将避免导致严重后果的问题和错误情况。

注意:

从 Junos OS 14.2R6 版开始,如果 SIB 由于高压或高温等极端条件而脱机,则在恢复过程中,路由器不会重新启动该 SIB 的交换矩阵平面。

上面提到的分阶段恢复机制是详尽的,除非存在可能与这些问题相关的其他错误。

从 Junos OS 14.2R6 版开始,您可以通过结合交换矩阵自 ping 和数据包转发引擎活动机制更好地管理单机箱系统中的交换矩阵降级。交换矩阵自我 ping 是一种检测交换矩阵数据路径中问题的机制。使用交换矩阵自 ping 机制,每个数据包转发引擎都可以确定,当数据包通过交换矩阵路径发送时,发往自身的数据包是否正在到达它。数据包转发引擎活动性是一种检测数据包转发引擎在交换矩阵平面上是否可访问的机制。为了验证其是否可访问,数据包转发引擎会定期通过交换矩阵平面发送自我目标的数据包。如果这两种机制检测到任何错误,交换矩阵管理器将发出 结构降级告警 ,并通过重新启动线卡来启动恢复。

MX 系列路由器交换矩阵弹性

MX 路由器提供智能机制来减少硬件故障场景中的数据包丢失。MX 系列路由器通过一套广泛的多层物理、逻辑和协议级弹性方面确保网络和服务的可用性

MX10008提供冗余和弹性。所有主要硬件组件,包括电源系统、冷却系统和控制板,都是完全冗余的。

MX10004电源系统和路由控制板 (RCB) 提供冗余和弹性。

MX2020 和 MX2010 机箱提供冗余和弹性。所有主要硬件组件(包括电源系统、冷却系统、控制板和交换机结构)都是完全冗余的。

交换机结构板 (SFB) 是 MX 路由器机箱中子系统的数据平面。SFB 可创建高度可扩展且具有弹性的“全活动”集中式交换矩阵,可为 MX2000 路由器中的每个 MPC 插槽提供高达 4 Tbps 的全双工交换容量。

MX240、MX480 和 MX960 机箱提供冗余和弹性。硬件系统、电源、风扇托盘、路由引擎和交换机控制板完全冗余。

MX304 路由器包含冗余、可插拔路由引擎,并最多支持三个线卡 MIC (LMIC)。

本主题包含以下部分,其中介绍了交换矩阵弹性配置选项、使用的故障检测方法和纠正措施:

交换矩阵连接恢复

由于以下原因,数据包转发引擎目标可能无法访问:

  • 控制板因 CLI 命令或按下物理按钮而脱机。

  • 由于温度过高,交换矩阵控制板处于离线状态。

  • 交换矩阵中的电压或轮询 I/O 错误。

  • 所有数据包转发引擎都会接收来自远程数据包转发引擎的所有平面上的目标错误,即使交换矩阵处于在线状态也是如此。

  • 目标超时导致的完全交换矩阵丢失,即使交换矩阵处于联机状态也是如此。

当系统检测到任何无法访问的数据包转发引擎目标时,将尝试恢复交换矩阵连接。如果恢复失败,系统将关闭接口以触发本地保护操作或在相邻路由器上重新路由流量。

恢复过程包括以下几个阶段:

  1. 交换矩阵平面重启阶段:通过逐个重新启动交换矩阵平面来尝试恢复。如果结构平面工作正常,并且仅由一个线卡报告错误,则此阶段不会启动。将生成一条错误消息,以指定连接丢失是交换矩阵平面脱机的原因。此阶段仅针对结构平面错误执行。

  2. 结构平面和线卡重新启动阶段:系统等待第一阶段完成,然后再再次检查系统状态。如果在执行第一阶段后未恢复连接,或者在 10 分钟内再次出现问题,则通过重新启动交换矩阵平面和线卡来尝试恢复连接。如果在[edit chassis fabric degraded]层次结构级别将action-fpc-restart-disable语句配置为在尝试恢复时禁用线卡重新启动,则会触发告警,以指示已发生连接丢失。在第二阶段,将采取三个步骤:

    1. PFE 上有目标错误的所有线卡都将脱机。

    2. 从备用平面开始,交换矩阵平面将逐个脱机并重新联机。

    3. 脱机状态的线卡将重新联机。

  3. 线卡脱机阶段:系统等待第二阶段完成,然后再再次检查系统状态。通过脱机关闭线卡和关闭接口(因为之前的恢复尝试失败)来限制连接丢失。如果重新启动线卡无法解决问题,或者重新启动线卡后 10 分钟内问题再次出现,则执行此阶段。

这三个阶段由计时器控制。在这些阶段中,如果某个事件(如脱机/联机线卡或交换矩阵平面)超时,则该阶段将跳过该事件并继续下一个事件。计时器控件的超时值为 10 分钟。如果具有两个或更多线卡的系统中发生第一个结构错误,则结构平面将重新启动。如果在接下来的 10 分钟内再次发生结构错误,则结构平面和线卡将重新启动。但是,如果第二个结构错误发生在 10 分钟的超时期限之外,则执行第一阶段,即仅重新启动结构平面。

如果所有目标超时都追溯到某个线卡(例如,一个源线卡或一个目标线卡),则只有该线卡处于脱机和联机状态。交换矩阵平面未脱机和联机。如果在 10 分钟内再次发生交换矩阵故障,则线卡将脱机。

默认情况下,系统会通过检测严重降级的交换矩阵来限制连接丢失时间。无需用户交互。

交换矩阵降级的线卡

您可以将交换矩阵降级的线卡配置为要移动到脱机状态。在MX10008、MX10004、MX2020、MX2010、MX960、MX480、MX304 或 MX240 路由器上,您可以配置链路错误或结构平面故障。此配置在部分连接丢失场景中特别有用,在这种情况下,使线卡脱机会导致更快地重新路由。要在线卡上配置此选项,请在[edit chassis fpc slot-number]层次结构级别使用offline-on-fabric-bandwidth-reduction语句。有关详细信息,请参阅 MX304 路由器上的交换矩阵平面管理MX10K-LC9600 和 SFB2(型号:JNP10008-SF2)上的交换矩阵平面管理、MX10004 设备上的交换矩阵平面管理JNP10K-LC2101 和 JNP10K-LC480 上的交换矩阵平面管理MX10004 上的交换矩阵平面管理以及 AS MLC 模块化载卡上的MX10008设备和交换矩阵平面管理

仅朝向单个目标的连接丢失

在某些部署中,线卡仅指示朝向单个目标的完全连接丢失,但对于其他目标,线卡可以正常工作。识别此类情况并恢复受影响的线卡。考虑一个示例方案,其中,线卡 0 和线卡 1 之间的连接中的活动平面为 0,1,2,3,备用平面为 4,5,6,7。如果线卡 0 的平面 0 和 1 出现单链路故障,而线卡 1 的平面 2 和 3 出现单链路故障,则两个线卡之间将发生完全连接丢失。线卡 0 和线卡 1 都会经历分阶段恢复模式,并进行结构愈合。

活动控制板上的冗余交换矩阵模式

您可以将活动控制板配置为处于冗余模式或增加交换矩阵带宽模式。要为活动控制板配置冗余模式,请在[edit chassis fabric]层次结构级别使用redundancy-mode redundant语句。

MX 系列路由器上线卡的检测和纠正措施

您可以在 MX 系列路由器(如 MX10008、MX10004、MX2020、MX2010、MX2008、MX960、MX480 或 MX304、MX240 等)上配置要移动到脱机状态的线卡。配置此功能不会影响系统。无需重新启动线卡或重新启动系统即可配置此功能。

配置该功能以禁用线卡时,可能会出现以下情况:

  • 如果线卡由于结构错误而脱机,并且禁用了将线卡移动到脱机状态的功能,则线卡将自动转换为联机状态。

  • 如果线卡由于结构错误而脱机,并且禁用或为其他线卡配置了将线卡移动到脱机状态的功能,则脱机的线卡将自动转换为联机状态。

  • 配置此设置时脱机的所有线卡都将在层次结构级别下 [edit chassis] 提交任何配置时重新联机。同样,重新启动机箱守护程序或 平滑路由引擎 切换 (GRES) 操作也会导致由于结构降级而被禁用的线卡移动到联机状态。

当线卡使用的活动结构平面数少于所需数量时。如果线卡使用的平面少于四个平面,则交换矩阵流量的带宽会降低。

以下情况会导致交换矩阵中的工作带宽减少:

  • 由于意外的突然断电,交换矩阵控制板脱机。

  • 特定于应用的集成电路 (ASIC) 错误,导致控制板的平面自动脱机。

  • 手动将交换矩阵平面或控制板置于脱机状态。

  • 拆卸控制板

  • 任何平面上的 Self ping 故障。

  • 活动平面的 HSL2 训练失败。

  • 如果备用交换矩阵平面出现 CRC 错误,并且此备用平面联机创建,则带有 CRC 错误的链路将被禁用。此机制可能会在某个方向上导致结构性能下降,并可能导致在另一个方向上出现空路由。

  • 当发生自我 ping 或 HSL2 训练失败时,特定线卡的结构平面将被禁用,而其他线卡则处于联机状态。这种情况也可能导致 null 路由。

如果需要在系统维护期间卸下控制板或将结构平面移动到脱机状态,则必须启用该功能,以将带宽已降低的线卡转换为脱机状态(通过在[edit chassis fpc slot-number]层次结构级别使用offline-on-fabric-bandwidth-reduction语句)。

当交换矩阵中出现空路由或工作带宽减少时,将执行以下纠正措施:

  • 无论是否有备用控制板,路由引擎都会以 5 秒的间隔监控每个线卡的自 ping 状态。交换矩阵管理器确定是否存在备用控制板

  • 交换矩阵托管在 MX10008、MX10004、MX2020、MX2010 和 MX2000 设备上的交换机矩阵板 (SFB) 上:

    • MX10008 路由器有 8 个线卡插槽,最多可支持 768 个 100 千兆以太网端口 (4x100)、192 个 40 千兆以太网端口、192 个 100 千兆以太网端口或 192 个 400 千兆以太网端口,其中线卡插槽 0-7 将 数据包转发引擎 (PFE) 和以太网接口组合在一个组件中。MX10008 支持 6 个交换机阵列板 (SFB) SFB 有两种型号:JNP10008-SF 和 JNP10008-SF2。在正在运行的机箱中,安装的 SFB 必须具有相同的型号类型。

      有关详细信息,请参阅 Fabric-Plane-Management-on-MX10004 和 MX10008-Devices

    • MX10004采用紧凑型 7-U 模块化机箱、线卡插槽、0-3 个硅线卡(2.4 Tbps、480 Gbps 和 9.6 Tbps 吞吐量),并具有完全的硬件冗余。交换矩阵板 (SFB) 为MX10004创建交换矩阵。每个 SFB 都有一组连接到线卡以及连接到交换机结构的路由和控制板 (RCB) 的连接器。三个 SFB 为一个 MX10004 路由器提供简化的交换功能。六个 SFB 提供全部吞吐量。每个 MX10004 SFB 有四个连接器。每个连接器都匹配一个线卡插槽,无需背板。

      有关结构平面管理的详细信息,请参阅 MX10004 设备上的结构平面管理

    • MX10003 路由器包含模块化路由引擎和 PFE。单个 PFE 同时执行入口和出口数据包转发。路由器提供两个专用线卡插槽。路由器支持一个主路由和控制板 (RCB)。

    • MX2020 和 MX2010 设备支持 8 个 SFB。Mx2020 有 20 个专用线卡插槽。MX2010 路由器有 10 个专用线卡插槽 主机子系统由两个带路由引擎的控制板 (CBRE) 和八个交换机结构板 (SFB) 组成。数据包通过 SFB 上的交换矩阵 ASIC 跨 MPC 之间的背板传输。

      交换机结构板 (SFB) 提供更高的每个插槽的结构带宽。最多八个 SFB、SFB2 或

      SFB3 可以安装在 MX2020 或 MX2010 路由器上。机箱中的所有交换机结构板必须为同一类型。不支持混合模式。

    • MX960 路由器,带有 I 芯片或 I 芯片以及基于 Trio 芯片的线卡,其中包含三个控制板。

    • MX240 或 MX480 路由器,带有 I 芯片或 I 芯片和基于 Trio 芯片的线卡,其中包含两个控制板。

    • 仅包含基于 Trio 的线卡的 MX960、MX480 或 MX240 路由器不被视为包含备用控制板。

    如果在任何 5 秒的间隔内,两个线卡指示同一平面发生故障,则切换到备用控制板。在这种情况下,报错的控制板脱机,备用控制板联机。

  • 如果有备用控制板可用,并且配置了禁用线卡的功能,则每个线卡的自 ping 状态将在路由引擎上以 5 秒的间隔进行监控。可能会出现以下情况:

    • 在任何 5 秒的时间间隔内,如果只有一个线卡指示平面出现故障,则交换矩阵管理器将等待下一个时间间隔。在随后的间隔中,如果没有其他线卡指示同一平面发生故障,则执行控制板的切换。

    • 在任何 5 秒间隔内,如果多个线卡显示多个控制板出现故障,交换矩阵管理器将等待下一个间隔。在随后的间隔期间,如果仍然存在相同的情况,即使存在备用控制板,所有故障线卡也会脱机。

    • 在任何 5 秒的时间间隔内,如果任何线卡显示多个控制板上的多个平面出现故障,交换矩阵管理器将等待下一个时间间隔。在随后的间隔期间,如果相同的情况仍然存在,即使存在备用控制板,线卡也会脱机。

  • 如果没有备用平面,则当线卡显示一个或多个平面的故障时,线卡将脱机。仅当先前在[edit chassis fpc slot-number]层次结构级别配置offline-on-fabric-bandwidth-reduction语句时,线卡才会脱机。

了解 T4000 路由器上的结构故障处理

T4000 路由器由交换机接口板 (SIB) 组成,其交换矩阵带宽是 T1600 路由器容量的两倍。交换矩阵故障管理功能与 T1600 路由器的功能类似。本主题介绍 T4000 路由器上的结构故障处理功能。

交换矩阵故障管理功能包括监控连接到交换矩阵的所有高速链路以及交换矩阵核心内的高速链路是否存在链路故障和链路错误。

根据故障及其位置采取措施。这些措施包括:

  • 报告系统日志文件中的链路错误,并将此信息发送到路由引擎。

  • 报告灵活端口集中器 (FPC) 或 SIB 的链路故障,并将此信息发送到路由引擎。

  • 将 SIB 标记为状态 Check

  • 将 SIB 移动到 Fault 状态。

T4000 路由器中的 SIB 构成了具有 4:1 冗余的交换矩阵核心 — 当活动 SIB 无法正常工作、被停用或被移除时,冗余 SIB 将变为活动状态。以下是 Junos OS 监视的结构故障的高级指示:

  • 每当 SIB 报告为 CheckFault时,都会生成 SNMP 陷阱。

  • show chassis alarms- 指示 SIB 处于 CheckFault 状态。

  • show chassis sibs- 指示 SIB 初始化时 SIB 处于 CheckFault 状态,或者 SIB 处于 Offline 状态(当 SIB 未完全通电时会发生这种情况)。

  • show chassis fabric fpcs—指示 FPC 端是否有任何结构链路出错。

  • show chassis fabric sibs—指示 SIB 端是否有任何结构链路出错。

  • /var/log/messages路由引擎上的系统日志消息文件包含前缀CHASSISD_FM_ERROR为 的错误消息。

  • SIB 显示 FAIL LED。

注意:

机箱中的交换矩阵平面决定机箱是 T640 路由器、T1600 路由器还是 T4000 路由器。电源接入模块 (PEM)、FPC 或风扇托盘不决定机箱特性。如果 T4000 机箱中存在旧的 PEM 或风扇托盘,则会引发告警。您可以根据路由器的结构平面来识别路由器:

  • 如果存在的所有平面都是基于 F16 的 SIB,则机箱为 T640 机箱。

  • 如果存在的所有平面都是基于 SF 的 SIB,则机箱为 T1600 机箱。

  • 如果存在的所有平面都是基于 XF 的 SIB,则机箱为 T4000 机箱。

请注意,除升级期间外,不支持混合交换矩阵平面。您可以通过更改所有交换矩阵平面并发出 set chassis fabric upgrade-mode CLI 命令来检查特性,从而在不重新启动的情况下更改机箱的特性。如果不发出 set chassis fabric upgrade-mode CLI 命令,则在下次启动之前,特性不会更改。

在 T4000 路由器中,您会遇到以下故障:

  • 板级故障 — 这些故障发生在初始化或运行时期间。板级故障的一些示例包括电路板初始化期间的电源故障、高速链路传输错误和运行时轮询的 I/O 错误。

  • 链路级故障 — 这些故障发生在初始化或运行时期间。初始化时的链路训练失败(初始化 FPC 或 SIB 时,FPC 和 SIB 之间的数据平面链路故障)、在 SIB 和数据包转发引擎之间的通道上检测到的错误、在运行时检测到的循环冗余校验 (CRC) 错误以及数据包转发引擎目标错误都是链路级故障的类型。

  • 基于环境条件的故障 — 这些故障发生在运行时。突然移除 FPC 或 SIB 可能会导致操作员错误。当 SIB 变得过热或 SIB 电压超过阈值时,产生的错误将归类为环境错误。

您可以实现以下选项之一来处理故障:

  • 记录错误并发出警报。

  • 切换到备用飞机(如果可用)。

  • 继续减少飞机的零件数量。

  • 继续减少可用平面的数量。

  • 使用基于轮询的故障处理。

  • 监控高速链路错误,并手动将链路降低到合适的阈值。

每 500 毫秒监测一次轮询的 I/O 错误和链路错误,每 10 秒监测一次电路板排气温度和电路板电压。

了解 PTX5000 数据包传输路由器 上的结构故障处理

从 Junos OS 14.1 版开始,PTX5000 数据包传输路由器 支持 9 个交换机接口板 (SIB)。每个 FPC2-PTX-P1A FPC 每个插槽支持 1Tb 的容量,从而实现每秒 16 Tbps 的交换矩阵带宽,全双工(8 Tbps 的任意到任意、无阻塞、半双工)交换。

交换矩阵故障管理功能包括监控连接到交换矩阵的所有高速链路以及交换矩阵核心内的高速链路是否存在链路故障和链路错误。

PTX5000中发生的故障大致可分为:

  • 电路板故障 — SIB 或灵活端口集中器 (FPC) 在初始化或运行期间出现的故障,包括路由器组件访问 SIB 或 FPC 时出现的问题,或由中板故障引起的问题。

  • 链路故障 — 在初始化或运行时期间,路由器中的高级链路上发生的故障。

  • 环境条件引起的故障 — 由于过压或过温而发生的故障;由于操作员对 SIB 或 FPC 操作不当而发生的故障,等等。

路由器会根据故障类别和故障位置采取措施。这些措施包括:

  • 报告系统日志文件中的链路错误,并将此信息发送到路由引擎。

  • 运行 表 1 中列出的操作命令之一时显示链路错误:

    表 1:操作模式命令列表

    操作模式命令

    描述

    show chassis sibs

    显示交换机接口板 (SIB) 状态信息。

    show chassis fabric fpcs <slot number>

    显示指定 FPC 插槽的结构状态。如果未提供插槽编号,则会显示所有 FPC 的状态。

    show chassis fabric sibs <slot number>

    显示 SIB 和 FPC 之间电气交换矩阵链路的状态。

    show chassis fabric reachability <detail>

    显示交换矩阵目标可达性的当前状态。

    show chassis fabric unreachable-destinations

    显示已从可访问状态转换为不可访问状态的目标列表。

    show pfe statistics error

    显示数据包转发引擎错误统计信息。

    show chassis fabric topology <sib_slot>

    显示输入-输出链路拓扑。

    show chassis fabric summary

    显示所有交换矩阵平面的状态和经过的正常运行时间。

  • 报告 FPC 级别或 SIB 级别的链路故障,并将此信息发送到路由引擎。

  • 在操作命令中 show chassis alarms 报告链路错误信息。

  • 将 SIB 移入 故障 状态。

以下章节介绍了PTX5000上的交换矩阵故障处理功能:

SIB 级故障

以下各节简要概述了 SIB 上发生的故障类型以及如何处理这些故障:

SIB 上发生的故障类型

在初始化和运行时,SIB 上会发生板故障和链路故障。一些故障是由于过压或过温等环境条件,或者当操作员对 SIB 处理不当时发生的。

注意:

执行 表1 中列出的操作模式命令,进行故障检测。

在 SIB 初始化和运行时,可能会发生以下错误:

  • 电路板故障,例如 SIB 无法上电、ASIC 复位失败、交换机处理器夹层板 (SPMB) 轮询、ASIC 的 I/O 访问失败、板组件故障(例如 PIC 故障)或路由器组件访问故障。

  • 链路故障,例如 链路训练期间发生的高级链路错误。

  • 由于环境条件或操作员对 SIB 处理不当而发生的故障。

处理 SIB 级故障

以下列表说明了路由器如何处理在初始化期间、运行时、由于环境条件以及操作员对 SIB 处理不当而在 SIB 上发生的故障:

  • 为了在初始化期间处理 SIB 上的电路板故障,机箱守护程序 (chassisd) 会将 SIB 标记为处于 故障 状态。将 SIB 标记为故障后,此 SIB 上不会发生任何操作。

  • 为了在运行时处理 SIB 上的主板故障,chassisd 会在系统日志文件中记录错误,引发报警指示错误类型,并将 SIB 标记为有故障。将 SIB 标记为故障后,此 SIB 上不会发生任何操作。

  • 为了在运行时处理 SIB 上的链路故障,当链路训练期间出现链路错误时,chassisd 会通知发生错误的链路对应的 FPC 禁用与受影响 SIB 的链路。然后,机箱会向路由器中的所有其他 FPC 发送一条错误消息,要求其停止使用故障的 SIB 链路,并且系统将生成链路错误告警。请注意,当多个 FPC 报告给定 SIB 的错误时,将为所有 FPC 禁用 SIB,并且数据包转发引擎不会通过受影响的 SIB 发送任何流量。

  • 为了在运行时处理 SIB 上的链路故障,chassisd 会将 SIB 标记为有故障并指定错误原因,然后禁用 SIB。

  • 如果发生环境故障(过压或过温),SIB 会立即脱机。请注意,随着温度或电压的升高,系统会周期性地记录错误,当 SIB 超过某个阈值电压或温度时,SIB 将脱机。

  • 当 SIB 突然被移除或移出时,所有受影响的数据包转发引擎都将停止使用该平面来到达路由器中的其他数据包转发引擎。

FPC 级故障

以下各节简要概述了 FPC 上发生的故障类型以及如何处理这些故障:

FPC 上发生的故障类型

FPC 在初始化和运行期间会发生电路板故障和链路故障。一些故障也是由于环境条件(如过压、过热或操作员对 FPC 处理不当)而发生的。

注意:

执行 表1 中列出的操作命令进行故障检测。

在 FPC 初始化和运行时,可能会发生以下故障:

  • 电路板故障,例如 FPC 无法上电、ASIC 无法脱离复位阶段、PMB 轮询 ASIC 的 I/O 访问失败、电路板组件故障(例如 PIC 故障)或路由器组件访问故障。

  • 链路故障,例如链路训练期间发生的高级链路错误。

  • 由于环境条件或操作员对 FPC 处理不当而发生的故障。

处理 FPC 级故障

以下列表说明了路由器如何处理在初始化期间、运行时、由于环境条件以及操作员对 FPC 处理不当而在 FPC 上发生的故障:

  • 为了在初始化期间处理 FPC 上的电路板故障,机箱会将 FPC 标记为处于 故障 状态。将 SIB 标记为故障后,此 FPC 上不会发生任何操作。

  • 为了在运行时处理 FPC 上的电路板故障,chassisd 会在系统日志文件中记录错误,引发报警指示错误类型,并将 FPC 标记为有故障。FPC 标记为故障后,此 FPC 上不会发生任何操作。

  • 为了在初始化期间或运行时处理 FPC 上的板载链路错误,FPC 将被关闭,所有受影响的数据包转发引擎都将停止使用该平面来到达路由器中的其他数据包转发引擎。

    注意:

    初始化期间不会删除任何平面,因为交换矩阵的链路训练过程尚未完成。

    运行时的板载链路错误将根据当前配置得到解决;FPC 重新启动或记录错误,FPC 继续初始化。

  • 如果发生环境故障(过压或过温),FPC 会立即脱机。请注意,随着温度或电压的升高,会周期性地记录错误,当 FPC 超过某个阈值电压或温度时,FPC 将脱机。

  • 当 FPC 突然被移除或移出时,所有其他数据包转发引擎将停止向此 FPC 中的数据包转发引擎发送流量。

了解增强型交换机结构板 (SFB2) 上的结构故障处理

MX2000 系列路由器支持交换机结构板 (SFB) 和增强型 SFB (SFB2),但不能同时支持两者。SFB 和 SFB2 各托管三个交换矩阵平面。因此,底盘总共支持 24 架飞机。Junos OS 15.1F6 和 16.1R1 版支持对 SFB 和 SFB2 中的每个平面进行结构故障处理。在早期版本中,每个 SFB (而不是每个平面)都支持结构故障处理。

表 2 列出了每个平面和每个 SFB 的交换矩阵故障处理之间的差异。

表 2:SFB 与 SFB2 交换矩阵故障处理

SFB 级别 (SFB)

平面级别(SFB 和 SFB2)

SFB 上任何链路上的循环冗余校验 (CRC) 错误都会显示在 SFB 上。

SFB 或 SFB2 上任何链路上的 CRC 错误都会显示在平面上。

遇到目标错误时,线卡会隔离 SFB(所有 3 个平面)。

遇到目标错误时,线卡会隔离相应的平面。其他飞机继续运行。

每个平面的交换矩阵故障处理具有以下优势:

  • 增加粒度,有助于识别、隔离和修复故障。

  • 告警和日志消息提供每个平面(而不是每个 SFB)的故障信息,这使得调试更容易。

  • 如果 SFB 有一个故障平面,则其他两个平面可以继续运行。无需使整个 SFB 脱机。

  • 如果出现暂时性错误,在修复时,您可以隔离单个平面,而不是隔离弹跳的 SFB。

要查看所有 24 个平面的交换矩阵故障处理信息, extended 请将选项用于现有交换矩阵命令。

管理带宽降级

某些错误会导致系统在不通知的情况下丢弃数据包。其他连接的系统继续将流量转发到受影响的系统,从而影响网络性能。严重退化的织物平面可能是这里的原因之一。

默认情况下,当系统检测到数据包转发引擎的问题时,瞻博网络路由器会尝试从这种情况开始修复。如果愈合失败,系统将关闭接口,从而防止进一步升级。

在 Junos OS 上,您可以在层次结构中使用配置语句bandwidth-degradation[edit chassis fpc slot-numberfabric]以您认为合适的方式检测和响应结构平面降级。您可以配置路由器以指定路由器在检测到此类情况后应采取哪些修复操作。您还可以使用可选语句blackhole-action来确定线卡如何响应 100% 的结构降级情况。此命令是可选的,将覆盖默认的结构强化过程。

注意:

bandwidth-degradation命令和offline-on-fabric-bandwidth-reduction语句是互斥的。如果配置了这两个命令,则在提交检查期间会发出错误。

bandwidth-degradation 句配置了百分比和操作。该 percent-age 值的范围为 1 到 99,表示触发线卡响应所需的结构降级百分比。该 action 属性确定线卡在结构降级达到配置百分比后执行的响应类型。

语句仅配置了一个 action 属性,该属性将在结构降级百分比达到 100% 时触发。

以下操作可应用于任一配置语句:

  • log-only:当达到结构降级阈值时,将在 chassisd 和消息文件中记录一条消息。不执行其他操作。

  • restart:一旦达到阈值,结构平面已降级的线卡将重新启动。

  • offline:一旦达到阈值,结构平面已降级的线卡将脱机。线卡需要手动干预才能重新联机。如果未配置操作属性,则为默认操作。

  • restart-then-offline:达到阈值后,结构平面已降级的线卡将重新启动,如果在 10 分钟内再次检测到结构平面降级,则线卡将脱机。线卡需要手动干预才能重新联机。

注意:

Junos OS 15.1R1 版提供了此功能。

使用 PTX10K-LC1202-36MR 线卡在 PTX10001-36MR、PTX10004、PTX10008 和 PTX100016 上进行结构强化和恢复

PTX10001-36MR、PTX10004、PTX10008 和 PTX100016 路由器支持交换矩阵强化。交换矩阵强化是一种弹性功能,用于检测交换矩阵黑洞并尝试自动恢复过程以从黑洞状态恢复数据包转发引擎。

我们默认启用了交换矩阵强化。当系统检测到任何无法访问的数据包转发引擎目标时,此功能会尝试自动恢复交换矩阵连接。

如果恢复失败,系统将关闭接口以限制黑洞,并触发告警以指示无法访问的数据包转发引擎目标。但是,用户可以使用层次结构级别的语句[set chassis fabric event]脱机set chassis fabric event reachability-fault actions recovery-failure pfe-offline配置数据包转发引擎,而不是关闭接口。

由于以下原因,数据包转发引擎目标可能无法访问:

  • 完全自黑洞 - 所有交换矩阵平面上都会发生完全连接丢失。

  • 完全对等黑洞 - 两个数据包转发引擎可以到达交换矩阵,但不能相互到达。

您可以使用层次[edit chassis fabric event reachability-fault]结构级别的语句将路由器配置为当路由器检测到结构带宽degraded下降时触发结构恢复。降级语句配置了一个百分比值,范围为 1 到 99。百分比值表示交换矩阵带宽降级的错误阈值,一旦达到阈值,路由器就会开始恢复。

配置降级错误阈值后,路由器还可以尝试交换矩阵恢复,原因如下:

  • 自降级 - 数据包转发引擎目标中的结构状况降级。

  • 对等体降级 - 两个数据包转发引擎之间的结构状况降级。

交换矩阵恢复过程包括以下一个或多个阶段:

  • SIB 重启阶段:如果跨多个线卡数据包转发引擎目标在平面上出现结构连接故障,则路由器会尝试通过重启 SIB 来解决问题。如果多个 SIB 需要重新启动,路由器将逐个重新启动这些 SIB。

  • FPC 重启阶段:在以下情况下,路由器会尝试通过重启 FPC 来实现自动恢复:

    • 具有完全或部分黑洞条件的所有数据包转发引擎目标均位于单个 FPC 中。

    • 如果不同 FPC 中出现具有完全或部分黑洞条件的数据包转发引擎目标,但没有一个数据包转发引擎共享公共故障平面。

    • SIB 重启阶段的尝试未能恢复数据包转发引擎。

    您可以禁用 FPC 的重新启动,以限制从已降级的交换矩阵状况中恢复的操作。要禁用 FPC 的重新启动,请在[set chassis fabric event]层次结构级别使用语set chassis fabric event reachability-fault actions fpc-restart-disable句。

  • 数据包转发引擎脱机阶段:由于先前的恢复阶段尝试失败或配置中禁用了恢复操作,因此路由器会关闭接口以在默认情况下限制黑洞。但是,用户可以使用层次结构级别的语句[set chassis fabric event]脱机set chassis fabric event reachability-fault actions recovery-failure pfe-offline配置数据包转发引擎,而不是关闭接口。

如果路由器只有具有对等黑洞或对等降级情况的数据包转发引擎,则路由器会重新启动平面上的交换矩阵链路,从而尝试通过链路自动修复进行恢复。

好处

  • 尝试自动恢复过程以从降级的结构条件中恢复数据包转发引擎,以最大程度地减少流量丢失。

  • 引发告警,提供故障信息,以在恢复失败时指示无法访问的数据包转发引擎目标。

禁用线卡重新启动以限制从降级的结构条件中恢复操作

您可以禁用线卡重新启动,以限制从已降级的交换矩阵状况中执行的恢复操作。在 T640 和 T1600 路由器上,仅重启交换矩阵平面。在 PTX 系列路由器上,仅重新启动交换机接口板 (SIB)。要禁用线卡的重新启动,请在[edit chassis fabric degraded]层次结构级别使用语action-fpc-restart-disable句:

每当禁用线卡重启时,当路由器中存在无法访问的目的地时,系统会发出警报,您必须手动重新启动线卡。

为确保在恢复过程中重新启动交换矩阵平面(T640 和 T1600 路由器)或 SIB(PTX 系列路由器)和线卡,请勿在[edit chassis fabric degraded]层次结构级别配置action-fpc-restart-disable该语句。

禁用交换矩阵带宽降低的 FPC

您可以使结构带宽下降的 FPC 脱机,以避免在机箱中长时间出现空路由。要配置选项以禁用带宽降低的 FPC,请在[edit chassis fpc slot-number]层次结构级别使用语offline-on-fabric-bandwidth-reduction句:

交换矩阵管理器会定期检查当前活动平面的数量。如果活动平面数低于特定路由器所需的活动平面数,则系统将等待 10 秒,然后再采取任何纠正措施。如果 FPC 的带宽减少情况仍然存在,并且已为 FPC 配置了此功能,则系统会使 FPC 脱机。

交换矩阵 OAM 的错误处理

交换矩阵操作、管理、维护 (OAM) 有助于检测交换矩阵路径中的故障。每当为 PFE 引入新的交换矩阵路径时,交换矩阵 OAM 都会在交换矩阵平面上发送流量之前验证交换矩阵连接。如果检测到故障,软件会报告故障并避免将该交换矩阵平面用于该 PFE。此功能的工作原理是通过在每个可用的交换矩阵平面上发送非常低的每秒数据包 (PPS) 自定向 OAM 流量,并检测端点的任何流量丢失(交换矩阵自 ping 检查)。

注意:
  • 在 Junos OS 演化版 20.4R1 中,结构 OAM 功能默认处于启用状态。您可以使用 CLI 命令 set chassis fabric oam detection-disable禁用该功能。
  • 在 Junos OS 演化版 20.4R2 和 21.1R1 中,结构 OAM 功能默认处于禁用状态。
  • 在 Junos OS 演化版 22.1R1 中,运行时结构 OAM 功能默认处于启用状态。您可以使用 CLI 命令 edit chassis fabric oam runtime-disable禁用该功能。运行时交换矩阵 OAM 功能在 PTX10004、PTX10008 和 PTX10016 路由器上受支持。

交换矩阵 OAM 检查在启动时完成。失败的路径将被禁用。系统不执行任何恢复操作。但是,您可以尝试通过重新启动 SIB 来恢复受影响的交换矩阵平面。恢复步骤取决于故障的性质。

结构平面表示 PFE 和结构 ASIC 之间的独立双向路径。运行时交换矩阵 OAM 会定期检查交换矩阵连接,并帮助检测和报告系统运行时交换矩阵平面中的故障。运行时交换矩阵 OAM 检测每个 PFE 的交换矩阵可访问性。

当单个或多个 FPC 上的相同交换矩阵平面发生故障时,请使用以下命令重新启动包含故障平面的 SIB:

user@host> request chassis sib slot slot-number offline

user@host> request chassis sib slot slot-number online

当多个 FPC 上的随机结构平面发生故障时,故障无法隔离到特定的 FPC 或 SIB。但是,您可以尝试通过按顺序重新启动包含受影响平面的 SIB 来恢复平面。

对于交换矩阵 OAM 功能检测到的每个错误,都会生成一个系统日志。下面是一个示例:

以下系统日志消息指示已清除与交换矩阵 OAM 相关的错误。

此外,您还可以使用 CLI 命令 show system errors active detailshow system alarms 查看与交换矩阵 OAM 相关的错误。

以下输出显示了单个结构平面故障(在数据包转发引擎 0 上)和所有结构平面故障(在数据包转发引擎 1 上)的详细信息。

您可以使用 CLI 命令 show chassis fabric fpcs 查看每个交换矩阵平面的交换矩阵 OAM 自ping 状态。

禁用交换矩阵 OAM 功能时, show chassis fabric fpcs 命令将显示以下输出:

变更历史表

是否支持某项功能取决于您使用的平台和版本。使用 功能浏览器 查看您使用的平台是否支持某项功能。

释放
描述
14.2R6
从 Junos OS 14.2R6 版开始,如果 SIB 由于高压或高温等极端条件而脱机,则在恢复过程中,路由器不会重新启动该 SIB 的交换矩阵平面。
14.2R6
从 Junos OS 14.2R6 版开始,您可以通过结合交换矩阵自 ping 和数据包转发引擎活动机制更好地管理单机箱系统中的交换矩阵降级。
14.1
从 Junos OS 14.1 版开始,PTX5000 数据包传输路由器 支持 9 个交换机接口板 (SIB)。
13.3
从 Junos OS 13.3 版开始,您可以使用 PTX 系列路由器配置与数据包转发引擎 (PFE) 相关的错误级别,以及在达到指定阈值时要执行的操作。