Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

监控机箱群集中的全局级对象

使用 功能浏览器 确认平台和版本对特定功能的支持。

查看特定 于平台的监控对象行为 部分,了解与您的平台相关的说明。

在使用配置为机箱群集的设备时,需要监控各种类型的对象,包括全局级对象和特定于冗余组的对象。本节介绍全局级对象的监控。

了解 SPU 监控

SPU 监控可跟踪 SPU 和中心点 (CP) 的运行状况。每个 SPC 上的机箱管理器监控 SPU 和中心点,并通过路由引擎机箱保持检测信号。在此分层监控系统中,机箱是硬件故障检测的中心。默认情况下,SPU 监控处于启用状态。

节点上的持续 SPU 和中心点故障被视为灾难性数据包转发引擎 (PFE) 故障。在这种情况下,通过将冗余组 x 的优先级降低到 0,可以在群集中禁用节点的 PFE。

  • 中心点故障会触发到辅助节点的故障切换。故障节点的 PFE(包括所有 SPC 和所有 I/O 卡 (IOC))将自动重新启动。如果辅助中心点也发生故障,则群集将无法启动,因为没有主设备。仅对数据平面(冗余组 x)进行故障切换。

  • 单个发生故障的 SPU 会导致冗余组 x 故障转移到辅助节点。故障节点上的所有 IOC 和 SPC 都将重新启动,冗余组 x 将故障转移到辅助节点。自动故障转移到辅助节点,无需用户干预。当发生故障的(以前的)主节点的故障组件恢复正常时,故障恢复由冗余组 x 的抢占配置确定。检测到失效 SPU 的间隔为 30 秒。

此事件会触发警报,指示需要新的现场可更换部件 (FRU)。

了解流式监控

流式监控跟踪流式进程的运行状况。默认情况监控处于启用状态。

节点上的持续流故障被视为灾难性数据包转发引擎 (PFE) 故障。在这种情况下,通过将冗余组 x 的优先级降低到 0,可以在群集中禁用节点的 PFE。

失败的流式进程会导致冗余组 x 故障转移到辅助节点。自动故障转移到辅助节点,无需用户干预。当发生故障的(以前的)主节点的故障组件恢复正常时,故障恢复由冗余组 x 的抢占配置确定。

在本地节点上的 SPC 和流监控失败期间,数据平面冗余组 RG1+ 将故障转移到另一个处于良好状态的节点。但是,控制平面 RG0 不会进行故障切换,并且与发生故障前的同一节点上保持主节点上的主节点。

了解冷同步监控

在 SPU 启动或流式 SPU 上同步数据平面运行时对象 (RTO) 的过程称为 冷同步。当所有 RTO 同步时,冷同步过程即告完成,并且节点上的 SPU 或流式 SPU 已准备好在需要时接管主节点。监视所有 SPU 的冷同步状态或在节点上流动的过程称为 冷同步监控。请记住,启用抢占时,冷同步监控将防止节点接管主要角色,直到 SPU 的冷同步过程完成或在节点上流动。默认情况下,冷同步监控处于启用状态。

当节点重新启动时,或者当 SPU 或流从故障中恢复时,所有冗余组 1+ 的优先级为 0。当 SPU 或流启动时,它会尝试使用另一个节点上的镜像 SPU 或流启动冷同步过程。

如果这是群集中的唯一节点,则所有冗余组 1+ 的优先级将保持为 0,直到有新节点加入群集。尽管优先级为 0,但设备仍可以通过其接口接收和发送流量。优先级为 0 表示在发生故障时无法进行故障转移。当新节点加入群集时,所有 SPU 或流式处理(当它们出现时)都将与现有节点的镜像 SPU 或流式节点启动冷同步过程。

当已启动节点的 SPU 或流检测到来自对等节点的 SPU 或流的冷同步请求时,它会向系统发布一条消息,指示冷同步过程已完成。新加入的节点的 SPU 或 flowd 会发布类似的消息。但是,只有在学习了所有 RTO 并完成冷同步后,它们才会发布此消息。在收到来自所有 SPU 或流的完成消息时,如果受监控组件(如接口)没有其他故障,冗余组 1+ 的优先级将移至每个节点上配置的优先级。此作可确保冗余 1+ 组的现有主节点始终首先移动到配置的优先级。加入群集的节点之后,只有在其所有 SPU 或流完成其冷同步过程后,才会移动到其配置的优先级。此作反过来可保证新添加的节点在接管主要角色之前已准备好所有 RTO。

了解使用 SPU 更换或扩展时的冷同步监控

如果您的 SRX5600 或 SRX5800 防火墙是 机箱群集的一部分,则在将设备上的服务处理卡 (SPC) 替换为 SPC2 或 SPC3 时,必须将所有冗余组故障转移到一个节点。

在此方案中会发生以下事件:

  • 当 SPC2 安装在节点上(例如,在节点 1,辅助节点上)时,节点 1 将关闭,以便安装 SPC2。

  • 节点 1 通电并重新加入群集后,节点 1 上的 SPU 数将高于节点 0(主节点)上的 SPU 数。现在,一个节点(节点 0)仍然具有旧的 SPC,而另一个节点具有新的 SPC2;SPC2 的每个卡有四个 SPU,而旧版 SPC 的每个卡有两个 SPU。

    冷同步过程基于节点 0 的 SPU 总数。当节点 1 中与节点 0 SPU 对应的 SPU 完成冷同步后,节点 1 将声明冷同步完成。由于节点 1 中的其他 SPU 没有对应的节点 0 SPU,因此无需同步任何内容,并且从节点 0 到节点 1 的故障切换不会导致任何问题。

    SPU 监控功能用于监控所有 SPU,并在出现任何 SPU 故障时报告。

    例如,假设两个节点最初都有 2 个现有 SPC,而您已在节点 1 上用 SPC2 替换了这两个 SPC。现在,节点 0 中有 4 个 SPU,节点 1 中有 8 个 SPU。SPU 监控功能监控节点 0 上的 4 个 SPU,以及节点 1 上的 8 个 SPU。如果这 8 个 SPU 中的任何一个在节点 1 中发生故障,SPU 监控仍将向瞻博网络服务冗余协议 (jsrpd) 进程报告存在 SPU 故障。jsrpd 进程控制机箱群集。

  • 节点 1 准备好故障切换后,可以手动启动至节点 1 的所有冗余组故障切换。节点 0 将被关闭,以 SPC2 替换其 SPC。更换后,节点 0 和节点 1 将具有完全相同的硬件设置。

节点 0 通电并重新加入群集后,系统将作为普通机箱群集运行。

如果机箱群集中的 SRX 系列防火墙上的冷同步进程仍在进行,并且控制链路已关闭,则在节点从辅助状态转换到主要状态之前,预计会有延迟(30 秒)。

特定于平台的 监控对象 行为

使用 功能浏览器 确认平台和版本对特定功能的支持。

使用下表查看平台上特定于平台的行为。

平台

差异

SRX 系列

  • SRX5000 系列防火墙支持对 SPC 进行 SPU 监控,路由引擎监控机箱管理器的运行状况。机箱管理器每秒向路由引擎机箱发送一次检测信号。当路由引擎检测到丢失的心跳时,它会重新启动 SPC。多次恢复失败后,路由引擎会关闭 SPC 电源以保护整个系统。

  • SRX5000 系列防火墙在插入 SPC 时有以下限制:

    • 机箱群集在 SPC 插入过程之前和期间必须处于主动/被动模式。

    • 不能在两个不同的节点中插入不同数量的 SPC。

    • 新的 SPC 必须插入高于中心点插槽的插槽中。

      插入新 SPC 后,无法将现有组合中心点更改为完整中心点。

    • 在 SPC 插入过程中,无法修改 IKE 和 IPsec 配置。

      SPC 不可热插入。插入 SPC 之前,必须使设备脱机。插入 SPC 后,必须重新启动设备。

    • 无法指定要锚定隧道的 SPU 和 IKE 实例。

    • 插入新的 SPC 后,现有隧道无法使用新 SPC 的处理能力并将其重新分配给新的 SPC。

  • 带有一个或多个 SPU 的 SRX5000 系列防火墙在服务处理卡 (SPC) 上运行。这些防火墙将 SPU 用于所有基于流的服务。其他 SRX 系列防火墙依靠基于流的转发过程( 式)来转发数据包。