Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

监控机箱群集中的全局级别对象

使用配置为机箱群集的设备时,需要监控各种类型的对象,包括全局级别对象和特定于冗余组的对象。本节介绍全局级对象的监视。

SRX5000 行具有一个或多个在服务处理卡 (SPC) 上运行的服务处理单元 (SPU)。所有基于流的服务都在 SPU 上运行。其他 SRX 系列防火墙具有基于流的转发进程 flowd,通过设备转发数据包。

了解 SPU 监控

SPU 监控可跟踪 SPU 和中央点 (CP) 的运行状况。每个 SPC 上的机箱管理器监控 SPU 和中心点,并通过路由引擎机箱维护检测信号。在此分层监控系统中,机箱是硬件故障检测的中心。默认情况下,SPU 监控处于启用状态。

SRX4600 和 SRX5000 系列设备上支持 SPU 监控。

节点上的持续 SPU 和中心点故障被视为灾难性数据包转发引擎 (PFE) 故障。在这种情况下,通过将冗余组的优先级 x 降低到 0,在群集中禁用节点的 PFE。

  • 中心点故障会触发到辅助节点的故障转移。故障节点的 PFE(包括所有 SPC 和所有 I/O 卡 (IOC))会自动重新启动。如果辅助中心点也出现故障,群集将无法启动,因为没有主设备。仅故障转移数据平面(冗余组 x)。

  • 单个发生故障的 SPU 会导致冗余组 x 故障切换至辅助节点。故障节点上的所有 IOC 和 SPC 都将重新启动,冗余组 x 将故障转移到辅助节点。故障转移到辅助节点是自动的,无需用户干预。当故障(前)主节点的故障组件恢复时,故障回复由冗余组 x 的抢占式配置确定。SPU 失效检测的时间间隔为 30 秒。

在 SRX5400、SRX5600 和SRX5800 SPC 上,路由引擎监控机箱管理器的运行状况。机箱管理器每秒向路由引擎机箱发送检测信号消息。当路由引擎机箱检测到心跳丢失时,它会启动整个 SPC 的电源重启。如果多个恢复在特定时间范围内失败,路由引擎将关闭 SPC 电源以防止其影响整个系统。

此事件会触发警报,指示需要新的现场可更换单元 (FRU)。

以下列表介绍了在机箱群集模式下在 SRX5400、SRX5600 和 SRX5800 设备上插入 SPC 的限制:

  • 机箱群集在 SPC 插入过程之前和期间必须处于主动/被动模式。

  • 不能在两个不同的节点中插入不同数量的 SPC。

  • 新的 SPC 必须插入高于中心点插槽的插槽中。

    插入新 SPC 后,无法将现有组合中心点更改为完整中心点。

  • 在 SPC 插入过程中,无法修改 IKE 和 IPsec 配置。

    SPC 不可热插入。在插入 SPC 之前,必须使设备脱机。插入 SPC 后,必须重新启动设备。

  • 用户无法指定 SPU 和 IKE 实例来锚定隧道。

  • 插入新 SPC 后,现有隧道无法使用新 SPC 的处理能力并将其重新分配给新 SPC。

了解流监控

流监视跟踪流进程的运行状况。默认情况下,流监控处于启用状态。

节点上的持续流故障被视为灾难性数据包转发引擎 (PFE) 故障。在这种情况下,通过将冗余组的优先级 x 降低到 0,在群集中禁用节点的 PFE。

流进程失败会导致冗余组 x 故障转移到辅助节点。故障转移到辅助节点是自动的,无需用户干预。当故障(前)主节点的故障组件恢复时,故障回复由冗余组 x 的抢占式配置确定。

在本地节点上的 SPC 和流监控失败期间,数据平面冗余组 RG1+ 会故障转移到另一个处于良好状态的节点。但是,控制平面 RG0 不会进行故障转移,而是在故障发生前的同一节点上保持主节点。

了解冷同步监控

在启动 SPU 或流时同步数据平面运行时对象 (RTO) 的过程称为 冷同步。同步所有 RTO 后,冷同步过程即告完成,节点上的 SPU 或流已准备好在需要时接管主节点。监控节点上所有 SPU 或流的冷同步状态的过程称为 冷同步监控。请记住,启用抢占后,冷同步监控会阻止节点接管主要角色,直到 SPU 的冷同步过程完成或在节点上流动。默认情况下,冷同步监控处于启用状态。

重新启动节点时,或者当 SPU 或流从故障中恢复时,所有冗余组 1+ 的优先级为 0。当 SPU 或流路由启动时,它会尝试使用其镜像 SPU 或其他节点上的流启动冷同步过程。

如果这是群集中的唯一节点,则所有冗余组 1+ 的优先级将保持在 0,直到有新节点加入群集。尽管优先级为 0,但设备仍可以通过其接口接收和发送流量。优先级为 0 表示在发生故障时无法进行故障转移。当新节点加入集群时,所有 SPU 或流(当它们启动时)将与镜像 SPU 或现有节点的流启动冷同步过程。

当已启动的节点的 SPU 或流检测到来自 SPU 的冷同步请求或对等节点的流时,它会向系统发布一条消息,指示冷同步过程已完成。新加入节点的 SPU 或流会发布类似消息。但是,只有在学习所有 RTO 并且冷同步完成后,它们才会发布此消息。收到来自所有 SPU 或流的完成消息后,如果受监控组件(如接口)没有其他故障,则冗余组 1+ 的优先级将移至每个节点上配置的优先级。此操作可确保冗余 1+ 组的现有主节点始终首先移动到配置的优先级。只有在其所有 SPU 或流完成其冷同步过程后,加入集群的节点才会移动到其配置的优先级。此操作反过来可确保新添加的节点在接管主要角色之前已准备好所有 RTO。

了解通过更换或扩展 SPU 进行冷同步监控

如果 SRX5600 防火墙或 SRX5800 防火墙是 机箱群集的一部分,则在将设备上的服务处理卡 (SPC) 替换为 SPC2 或 SPC3 时,必须将所有冗余组故障切换至一个节点。

对于SRX5400设备,支持 SPC2 和 SPC3。

在此方案中发生以下事件:

  • 当 SPC2 安装在节点上(例如,在节点 1 上,辅助节点上)时,节点 1 将关闭,以便可以安装 SPC2。

  • 节点 1 通电并重新加入集群后,节点 1 上的 SPU 数将高于主节点节点 0 上的 SPU 数。现在,一个节点(节点 0)仍然具有旧的 SPC,而另一个节点具有新的 SPC2;SPC2 的每个卡有四个 SPU,较旧的 SPC 每个卡有两个 SPU。

    冷同步过程基于节点 0 的总 SPU 数。节点 1 中与节点 0 SPU 对应的 SPU 完成冷同步后,节点 1 将声明冷同步已完成。由于节点 1 中的附加 SPU 没有对应的节点 0 SPU,因此没有要同步的内容,从节点 0 到节点 1 的故障切换不会导致任何问题。

    SPU 监控功能可监控所有 SPU,并在出现任何 SPU 故障时报告。

    例如,假设两个节点最初都有 2 个现有 SPC,并且您已将节点 1 上的两个 SPC 替换为 SPC2。现在节点 0 中有 4 个 SPU,节点 1 中有 8 个 SPU。SPU 监控功能监控节点 0 上的 4 个 SPU 和节点 1 上的 8 个 SPU。如果节点 1 中的这 8 个 SPU 中的任何一个发生故障,SPU 监控仍将向瞻博网络服务冗余协议 (jsrpd) 进程报告存在 SPU 故障。jsrpd 进程控制机箱群集。

  • 节点 1 准备好进行故障转移后,您可以手动启动到节点 1 的所有冗余组故障转移。节点 0 将被关闭,以将其 SPC 替换为 SPC2。更换后,节点 0 和节点 1 将具有完全相同的硬件设置。

节点 0 通电并重新加入群集后,系统将作为普通机箱群集运行。

从 Junos OS 版本 15.1X49-D120 开始,当机箱群集中的 SRX 系列防火墙上的冷同步过程仍在进行时,如果控制链路关闭,则在节点从辅助状态转换到主要状态之前,预计会有延迟(30 秒)。