监控机箱群集中的全局级对象

使用功能浏览器确认平台和版本对特定功能的支持。

查看特定于平台的监控对象行为部分，了解与您的平台相关的说明。

在使用配置为机箱群集的设备时，需要监控各种类型的对象，包括全局级对象和特定于冗余组的对象。本节介绍全局级对象的监控。

了解 SPU 监控

SPU 监控可跟踪 SPU 和中心点（CP）的运行状况。每个 SPC 上的机箱管理器监控 SPU 和中心点，并通过路由引擎机箱保持检测信号。在此分层监控系统中，机箱是硬件故障检测的中心。默认情况下，SPU 监控处于启用状态。

节点上的持续 SPU 和中心点故障被视为灾难性数据包转发引擎（PFE）故障。在这种情况下，通过将冗余组 x 的优先级降低到 0，可以在群集中禁用节点的 PFE。

中心点故障会触发到辅助节点的故障切换。故障节点的 PFE（包括所有 SPC 和所有 I/O 卡（IOC））将自动重新启动。如果辅助中心点也发生故障，则群集将无法启动，因为没有主设备。仅对数据平面（冗余组 x）进行故障切换。
单个发生故障的 SPU 会导致冗余组 x 故障转移到辅助节点。故障节点上的所有 IOC 和 SPC 都将重新启动，冗余组 x 将故障转移到辅助节点。自动故障转移到辅助节点，无需用户干预。当发生故障的（以前的）主节点的故障组件恢复正常时，故障恢复由冗余组 x 的抢占配置确定。检测到失效 SPU 的间隔为 30 秒。

此事件会触发警报，指示需要新的现场可更换部件（FRU）。

了解流式监控

流式监控跟踪流式进程的运行状况。默认情况监控处于启用状态。

节点上的持续流故障被视为灾难性数据包转发引擎（PFE）故障。在这种情况下，通过将冗余组 x 的优先级降低到 0，可以在群集中禁用节点的 PFE。

失败的流式进程会导致冗余组 x 故障转移到辅助节点。自动故障转移到辅助节点，无需用户干预。当发生故障的（以前的）主节点的故障组件恢复正常时，故障恢复由冗余组 x 的抢占配置确定。

在本地节点上的 SPC 和流监控失败期间，数据平面冗余组 RG1+ 将故障转移到另一个处于良好状态的节点。但是，控制平面 RG0 不会进行故障切换，并且与发生故障前的同一节点上保持主节点上的主节点。

了解冷同步监控

在 SPU 启动或流式 SPU 上同步数据平面运行时对象（RTO）的过程称为 冷同步。当所有 RTO 同步时，冷同步过程即告完成，并且节点上的 SPU 或流式 SPU 已准备好在需要时接管主节点。监视所有 SPU 的冷同步状态或在节点上流动的过程称为 冷同步监控。请记住，启用抢占时，冷同步监控将防止节点接管主要角色，直到 SPU 的冷同步过程完成或在节点上流动。默认情况下，冷同步监控处于启用状态。

当节点重新启动时，或者当 SPU 或流从故障中恢复时，所有冗余组 1+ 的优先级为 0。当 SPU 或流启动时，它会尝试使用另一个节点上的镜像 SPU 或流启动冷同步过程。

如果这是群集中的唯一节点，则所有冗余组 1+ 的优先级将保持为 0，直到有新节点加入群集。尽管优先级为 0，但设备仍可以通过其接口接收和发送流量。优先级为 0 表示在发生故障时无法进行故障转移。当新节点加入群集时，所有 SPU 或流式处理（当它们出现时）都将与现有节点的镜像 SPU 或流式节点启动冷同步过程。

当已启动节点的 SPU 或流检测到来自对等节点的 SPU 或流的冷同步请求时，它会向系统发布一条消息，指示冷同步过程已完成。新加入的节点的 SPU 或 flowd 会发布类似的消息。但是，只有在学习了所有 RTO 并完成冷同步后，它们才会发布此消息。在收到来自所有 SPU 或流的完成消息时，如果受监控组件（如接口）没有其他故障，冗余组 1+ 的优先级将移至每个节点上配置的优先级。此作可确保冗余 1+ 组的现有主节点始终首先移动到配置的优先级。加入群集的节点之后，只有在其所有 SPU 或流完成其冷同步过程后，才会移动到其配置的优先级。此作反过来可保证新添加的节点在接管主要角色之前已准备好所有 RTO。

了解使用 SPU 更换或扩展时的冷同步监控

如果您的 SRX5600 或 SRX5800 防火墙是机箱群集的一部分，则在将设备上的服务处理卡（SPC）替换为 SPC2 或 SPC3 时，必须将所有冗余组故障转移到一个节点。

在此方案中会发生以下事件：

当 SPC2 安装在节点上（例如，在节点 1，辅助节点上）时，节点 1 将关闭，以便安装 SPC2。
节点 1 通电并重新加入群集后，节点 1 上的 SPU 数将高于节点 0（主节点）上的 SPU 数。现在，一个节点（节点 0）仍然具有旧的 SPC，而另一个节点具有新的 SPC2;SPC2 的每个卡有四个 SPU，而旧版 SPC 的每个卡有两个 SPU。

冷同步过程基于节点 0 的 SPU 总数。当节点 1 中与节点 0 SPU 对应的 SPU 完成冷同步后，节点 1 将声明冷同步完成。由于节点 1 中的其他 SPU 没有对应的节点 0 SPU，因此无需同步任何内容，并且从节点 0 到节点 1 的故障切换不会导致任何问题。

SPU 监控功能用于监控所有 SPU，并在出现任何 SPU 故障时报告。

例如，假设两个节点最初都有 2 个现有 SPC，而您已在节点 1 上用 SPC2 替换了这两个 SPC。现在，节点 0 中有 4 个 SPU，节点 1 中有 8 个 SPU。SPU 监控功能监控节点 0 上的 4 个 SPU，以及节点 1 上的 8 个 SPU。如果这 8 个 SPU 中的任何一个在节点 1 中发生故障，SPU 监控仍将向瞻博网络服务冗余协议（jsrpd）进程报告存在 SPU 故障。jsrpd 进程控制机箱群集。
节点 1 准备好故障切换后，可以手动启动至节点 1 的所有冗余组故障切换。节点 0 将被关闭，以 SPC2 替换其 SPC。更换后，节点 0 和节点 1 将具有完全相同的硬件设置。

节点 0 通电并重新加入群集后，系统将作为普通机箱群集运行。

如果机箱群集中的 SRX 系列防火墙上的冷同步进程仍在进行，并且控制链路已关闭，则在节点从辅助状态转换到主要状态之前，预计会有延迟（30 秒）。

特定于平台的监控对象行为

使用功能浏览器确认平台和版本对特定功能的支持。

使用下表查看平台上特定于平台的行为。

平台	差异
SRX 系列	SRX5000 系列防火墙支持对 SPC 进行 SPU 监控，路由引擎监控机箱管理器的运行状况。机箱管理器每秒向路由引擎机箱发送一次检测信号。当路由引擎检测到丢失的心跳时，它会重新启动 SPC。多次恢复失败后，路由引擎会关闭 SPC 电源以保护整个系统。 SRX5000 系列防火墙在插入 SPC 时有以下限制：机箱群集在 SPC 插入过程之前和期间必须处于主动/被动模式。不能在两个不同的节点中插入不同数量的 SPC。新的 SPC 必须插入高于中心点插槽的插槽中。插入新 SPC 后，无法将现有组合中心点更改为完整中心点。在 SPC 插入过程中，无法修改 IKE 和 IPsec 配置。 SPC 不可热插入。插入 SPC 之前，必须使设备脱机。插入 SPC 后，必须重新启动设备。无法指定要锚定隧道的 SPU 和 IKE 实例。插入新的 SPC 后，现有隧道无法使用新 SPC 的处理能力并将其重新分配给新的 SPC。带有一个或多个 SPU 的 SRX5000 系列防火墙在服务处理卡（SPC）上运行。这些防火墙将 SPU 用于所有基于流的服务。其他 SRX 系列防火墙依靠基于流的转发过程（流式）来转发数据包。

平台

差异

SRX 系列

SRX5000 系列防火墙支持对 SPC 进行 SPU 监控，路由引擎监控机箱管理器的运行状况。机箱管理器每秒向路由引擎机箱发送一次检测信号。当路由引擎检测到丢失的心跳时，它会重新启动 SPC。多次恢复失败后，路由引擎会关闭 SPC 电源以保护整个系统。
SRX5000 系列防火墙在插入 SPC 时有以下限制：
- 机箱群集在 SPC 插入过程之前和期间必须处于主动/被动模式。
- 不能在两个不同的节点中插入不同数量的 SPC。
- 新的 SPC 必须插入高于中心点插槽的插槽中。
  
  插入新 SPC 后，无法将现有组合中心点更改为完整中心点。
- 在 SPC 插入过程中，无法修改 IKE 和 IPsec 配置。
  
  SPC 不可热插入。插入 SPC 之前，必须使设备脱机。插入 SPC 后，必须重新启动设备。
- 无法指定要锚定隧道的 SPU 和 IKE 实例。
- 插入新的 SPC 后，现有隧道无法使用新 SPC 的处理能力并将其重新分配给新的 SPC。
带有一个或多个 SPU 的 SRX5000 系列防火墙在服务处理卡（SPC）上运行。这些防火墙将 SPU 用于所有基于流的服务。其他 SRX 系列防火墙依靠基于流的转发过程（流式）来转发数据包。

本页内容