对一个节点处于主状态而另一个节点处于丢失状态的 SRX 机箱群集进行故障排除
问题
描述
SRX 机箱群集的节点处于主状态和丢失状态。
环境
SRX 机箱群集
症状
群集的一个节点处于主状态,另一个节点处于丢失状态。 show chassis cluster status
在每个节点上运行命令以查看节点的状态。下面是一个示例输出:
{primary:node0} root@primary-srx> show chassis cluster status Cluster ID: 1 Node Priority Status Preempt Manual failover Redundancy group: 0 , Failover count: 1 node0 100 primary no no node1 0 lost no no Redundancy group: 1 , Failover count: 1 node0 100 primary no no node1 0 lost no no
诊断
处于丢失状态的节点是否通电?
是:是否能够通过控制台端口访问处于丢失状态的节点?请勿使用 Telnet 或 SSH 访问节点。
如果您能够访问该节点,请继续执行步骤 3。
如果您无法访问节点并且设备位于远程位置,请通过控制台访问节点以进行进一步的故障排除。如果您具有控制台访问权限,但没有看到任何输出,则可能表示存在硬件问题。向您的技术支持代表提交案例,以便进行进一步的故障排除。请参阅 客户支持的数据收集。
否:打开节点电源并继续执行步骤 2。
-
两个节点都打开电源后,再次运行该
show chassis cluster status
命令。节点是否仍处于丢失状态?-
是:是否能够通过控制台端口访问处于丢失状态的节点?请勿使用 Telnet 或 SSH 访问节点。
-
如果您能够访问该节点,请继续执行步骤 3。
-
如果您无法访问该节点,并且该节点位于远程位置,请通过控制台访问该节点以进行进一步的故障排除。如果您具有控制台访问权限,但没有看到任何输出,则可能表示存在硬件问题。向您的技术支持代表提交案例,以便进行进一步的故障排除。请参阅 客户支持的数据收集。
-
-
否:打开设备电源已解决问题。
-
-
将控制台连接到主节点,然后运行
show chassis cluster status
命令。输出是否将此节点显示为主节点,而将另一个节点显示为丢失?-
是:这可能表示存在裂脑情况。每个节点将显示为主节点,另一个节点显示为丢失。运行以下命令以验证哪个节点正在处理流量:
-
show security monitoring
-
show security flow session summary
-
monitor interface traffic
隔离未处理流量的节点。您可以通过移除除控制和结构链路之外的所有电缆,将节点与网络隔离。继续执行步骤 4。
-
-
否:继续执行步骤 4。
-
-
通过运行
show chassis fpc pic-status
命令,验证处于丢失状态的节点上的所有 FPC 是否都处于联机状态。所有 FPC 都在线吗?-
是:继续执行步骤 5。
-
否:向您的技术支持代表提交案例,以便进行进一步的故障排除。请参阅 客户支持的数据收集。
-
-
节点是否通过交换机连接?
-
是:请参阅对 SRX 机箱群集中的交换矩阵链路故障进行故障排除和对 SRX 机箱群集中的控制链路故障进行故障排除。
-
否:继续执行步骤 6。
-
-
从当前主节点创建配置的备份:
{primary:node0}
root@primary-srx# show configuration | save /var/tmp/cfg-bkp.txt
将配置复制到处于丢失状态的节点,然后加载配置:
root@lost-srx# load override <terminal or filename>
注意:如果使用此选项
terminal
,请将完整配置粘贴到窗口中。请确保在配置结束时使用 Ctrl+D 。filename
如果使用选项,请提供配置文件的路径(例如:/var/tmp/Primary_saved.conf),然后按 Enter 键。当您通过控制台连接到处于丢失状态的节点时,您可能会看到该状态为主或保持/禁用。如果节点处于保留/禁用状态,则在设备进入丢失状态之前,可能已经发生了结构链路故障。要解决此问题,请按照 排查 SRX 机箱群集中的交换矩阵链路故障中的步骤操作。
加载配置后提交更改。如果问题仍然存在,请将此设备上的现有控制和结构链路更换为新电缆并重新启动节点:
{primary:node1}[edit]
root@lost-srx# request system reboot
问题解决了吗?
-
否:向您的技术支持代表提交案例,以便进行进一步的故障排除。请参阅 客户支持的数据收集。
-