检测并恢复由 MX 系列路由器上的连接丢失引起的与交换矩阵相关的故障
当路由器无法将数据包传输到其他相邻路由器时,尽管该路由器上的接口仍处于活动状态,但该路由器上的接口仍会发生连接丢失。因此,其他相邻路由器会继续将流量转发到受影响的路由器,该路由器会丢弃到达的数据包,而不会向其他路由器发送通知。
当路由器中的数据包转发引擎无法通过同一路由器内的数据平面向其他数据包转发引擎发送流量时,即使接口在控制平面上被播发为活动,但路由器也无法将任何数据包传输到相邻的路由器。交换矩阵故障可能是连接中断的原因之一。
可能会发生以下交换矩阵故障情况:
拆卸控制板
高速链路 2 (HSL2) 训练失败
线卡上的单链路故障
同一线卡或同一结构平面上的多个链路故障
线卡或结构平面上的多个链路随机故障
间歇性循环冗余校验 (CRC) 错误
仅一个目的地的连接完全断开,而与其他目的地的连接则不然
当线卡由于某种原因未将流量转发到设备内的其他线卡时,路由引擎上的控制协议将无法检测到这种情况。流量传输不会转移到正常运行的活动线卡,而是会继续将数据包发送到受影响的线卡,并在此时被丢弃。以下可能是线卡无法转发流量的原因:
系统中的所有平面都处于
Offline或Fault状态。线卡上的所有数据包转发引擎可能由于目标错误而禁用了结构流。
如果所有交换机控制板 (SCB) 都断开与线卡的连接,则所有接口都将关闭。如果线卡的数据包转发引擎与交换矩阵之间失去完全连接,则该线卡将关闭。
系统硬件故障可以分为以下类型:
单次发生或短时间内的罕见故障(如环境峰值)。通过重新启动结构平面并在必要时重新启动线卡和结构平面,无需手动干预即可有效修复此故障。
经常发生的重复故障。
永久性故障。
不会尝试从吞吐量降低的任何情况中恢复,例如多个平面上的多个数据包转发引擎目标超时。仅当所有平面都处于 Offline 或 Fault 状态,或者当所有活动平面上都无法到达目的地时,才会尝试恢复连接。
如果由于某个线卡(目标超时的公共源或公共目标)而发生连接丢失,并且已在[edit chassis fabric degraded]层次结构级别配置了action-fpc-restart-disable该语句,则不会执行恢复作。show chassis fabric reachability命令输出可用于验证交换矩阵和线卡的状态。将触发告警,指示特定线卡导致了连接丢失。