监控机箱群集中的全局级对象
使用 功能浏览器 确认平台和版本对特定功能的支持。
查看特定 于平台的监控对象行为 部分,了解与您的平台相关的说明。
在使用配置为机箱群集的设备时,需要监控各种类型的对象,包括全局级对象和特定于冗余组的对象。本节介绍全局级对象的监控。
了解 SPU 监控
SPU 监控可跟踪 SPU 和中心点 (CP) 的运行状况。每个 SPC 上的机箱管理器监控 SPU 和中心点,并通过路由引擎机箱保持检测信号。在此分层监控系统中,机箱是硬件故障检测的中心。默认情况下,SPU 监控处于启用状态。
节点上的持续 SPU 和中心点故障被视为灾难性数据包转发引擎 (PFE) 故障。在这种情况下,通过将冗余组 x 的优先级降低到 0,可以在群集中禁用节点的 PFE。
中心点故障会触发到辅助节点的故障切换。故障节点的 PFE(包括所有 SPC 和所有 I/O 卡 (IOC))将自动重新启动。如果辅助中心点也发生故障,则群集将无法启动,因为没有主设备。仅对数据平面(冗余组 x)进行故障切换。
单个发生故障的 SPU 会导致冗余组 x 故障转移到辅助节点。故障节点上的所有 IOC 和 SPC 都将重新启动,冗余组 x 将故障转移到辅助节点。自动故障转移到辅助节点,无需用户干预。当发生故障的(以前的)主节点的故障组件恢复正常时,故障恢复由冗余组 x 的抢占配置确定。检测到失效 SPU 的间隔为 30 秒。
此事件会触发警报,指示需要新的现场可更换部件 (FRU)。
了解流式监控
流式监控跟踪流式进程的运行状况。默认情况监控处于启用状态。
节点上的持续流故障被视为灾难性数据包转发引擎 (PFE) 故障。在这种情况下,通过将冗余组 x 的优先级降低到 0,可以在群集中禁用节点的 PFE。
失败的流式进程会导致冗余组 x 故障转移到辅助节点。自动故障转移到辅助节点,无需用户干预。当发生故障的(以前的)主节点的故障组件恢复正常时,故障恢复由冗余组 x 的抢占配置确定。
在本地节点上的 SPC 和流监控失败期间,数据平面冗余组 RG1+ 将故障转移到另一个处于良好状态的节点。但是,控制平面 RG0 不会进行故障切换,并且与发生故障前的同一节点上保持主节点上的主节点。
了解冷同步监控
在 SPU 启动或流式 SPU 上同步数据平面运行时对象 (RTO) 的过程称为 冷同步。当所有 RTO 同步时,冷同步过程即告完成,并且节点上的 SPU 或流式 SPU 已准备好在需要时接管主节点。监视所有 SPU 的冷同步状态或在节点上流动的过程称为 冷同步监控。请记住,启用抢占时,冷同步监控将防止节点接管主要角色,直到 SPU 的冷同步过程完成或在节点上流动。默认情况下,冷同步监控处于启用状态。
当节点重新启动时,或者当 SPU 或流从故障中恢复时,所有冗余组 1+ 的优先级为 0。当 SPU 或流启动时,它会尝试使用另一个节点上的镜像 SPU 或流启动冷同步过程。
如果这是群集中的唯一节点,则所有冗余组 1+ 的优先级将保持为 0,直到有新节点加入群集。尽管优先级为 0,但设备仍可以通过其接口接收和发送流量。优先级为 0 表示在发生故障时无法进行故障转移。当新节点加入群集时,所有 SPU 或流式处理(当它们出现时)都将与现有节点的镜像 SPU 或流式节点启动冷同步过程。
当已启动节点的 SPU 或流检测到来自对等节点的 SPU 或流的冷同步请求时,它会向系统发布一条消息,指示冷同步过程已完成。新加入的节点的 SPU 或 flowd 会发布类似的消息。但是,只有在学习了所有 RTO 并完成冷同步后,它们才会发布此消息。在收到来自所有 SPU 或流的完成消息时,如果受监控组件(如接口)没有其他故障,冗余组 1+ 的优先级将移至每个节点上配置的优先级。此作可确保冗余 1+ 组的现有主节点始终首先移动到配置的优先级。加入群集的节点之后,只有在其所有 SPU 或流完成其冷同步过程后,才会移动到其配置的优先级。此作反过来可保证新添加的节点在接管主要角色之前已准备好所有 RTO。
了解使用 SPU 更换或扩展时的冷同步监控
如果您的 SRX5600 或 SRX5800 防火墙是 机箱群集的一部分,则在将设备上的服务处理卡 (SPC) 替换为 SPC2 或 SPC3 时,必须将所有冗余组故障转移到一个节点。
在此方案中会发生以下事件:
当 SPC2 安装在节点上(例如,在节点 1,辅助节点上)时,节点 1 将关闭,以便安装 SPC2。
节点 1 通电并重新加入群集后,节点 1 上的 SPU 数将高于节点 0(主节点)上的 SPU 数。现在,一个节点(节点 0)仍然具有旧的 SPC,而另一个节点具有新的 SPC2;SPC2 的每个卡有四个 SPU,而旧版 SPC 的每个卡有两个 SPU。
冷同步过程基于节点 0 的 SPU 总数。当节点 1 中与节点 0 SPU 对应的 SPU 完成冷同步后,节点 1 将声明冷同步完成。由于节点 1 中的其他 SPU 没有对应的节点 0 SPU,因此无需同步任何内容,并且从节点 0 到节点 1 的故障切换不会导致任何问题。
SPU 监控功能用于监控所有 SPU,并在出现任何 SPU 故障时报告。
例如,假设两个节点最初都有 2 个现有 SPC,而您已在节点 1 上用 SPC2 替换了这两个 SPC。现在,节点 0 中有 4 个 SPU,节点 1 中有 8 个 SPU。SPU 监控功能监控节点 0 上的 4 个 SPU,以及节点 1 上的 8 个 SPU。如果这 8 个 SPU 中的任何一个在节点 1 中发生故障,SPU 监控仍将向瞻博网络服务冗余协议 (jsrpd) 进程报告存在 SPU 故障。jsrpd 进程控制机箱群集。
节点 1 准备好故障切换后,可以手动启动至节点 1 的所有冗余组故障切换。节点 0 将被关闭,以 SPC2 替换其 SPC。更换后,节点 0 和节点 1 将具有完全相同的硬件设置。
节点 0 通电并重新加入群集后,系统将作为普通机箱群集运行。
如果机箱群集中的 SRX 系列防火墙上的冷同步进程仍在进行,并且控制链路已关闭,则在节点从辅助状态转换到主要状态之前,预计会有延迟(30 秒)。
特定于平台的 监控对象 行为
使用 功能浏览器 确认平台和版本对特定功能的支持。
使用下表查看平台上特定于平台的行为。
| 平台 |
差异 |
|---|---|
| SRX 系列 |
|