Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

多节点高可用性监控选项

监控类型

高可用性故障检测可监控系统、软件和硬件的内部故障。该系统还可以使用接口监控、BFD 路径监控和 IP 监控来监控网络连接问题或链路连接,以检测更远目标的可达性。

表 1 提供了有关多节点高可用性中使用的不同监控类型的详细信息。

表 1:多节点高可用性监控类型
监测类型 什么是 检测类型 范围
BFD 监控 通过检查链路层和实际链路来监控下一跃点的可访问性。
  • 路径故障
  • 链路故障
  • 检测路由连接中的故障
  • 不用于检测直接连接/下一跃点之外的故障。
IP 监控

监控与位于直接连接接口或下一跃点之外的主机或服务的连接。

  • 路径故障
  • 链路故障
  • 检测在更远的主机或服务上发生的故障。
  • 不用于检测直接连接链路中发生的故障或下一跃点故障。
接口监控

检查链路层是否可操作。

链路故障
  • 检测直接连接的链路或下一跃点的故障,以及与距离较远的主机或服务的连接。
  • 不用于监控路径

在多节点高可用性中,当监控检测到与主机或服务的连接故障时,它会将受影响的路径标记为关闭/不可用,并将受影响节点上的相应服务路由组 (SRG) 标记为“不合格”。受影响的 SRG 将以有状态方式转换为其他节点,而不会对流量造成任何中断。

为了防止任何流量丢失,多节点高可用性采取了以下预防措施:

  • 第 3 层模式 — 将重新绘制路由,以便正确重定向流量
  • 默认网关或混合模式 — SRG 的新活动节点向连接的交换机发送 GARP(免费 ARP),以确保重新路由流量

多节点高可用性故障场景

以下各节介绍了可能的故障方案:如何检测故障、要执行的恢复操作以及故障对系统造成的影响(如果适用)。

节点故障

硬件故障

  • 原因 — 硬件组件故障或电源故障等环境问题。
  • 检测 — 在多节点高可用性中
    • 无法访问受影响的设备/节点
    • SRG1 状态更改为 INELIGIBLE 在发生硬件故障的节点上。
  • 影响 —流量将故障转移到另一个节点(如果运行良好),如 图 1 所示。.
    图 1:多节点高可用性 Hardware Failure in Multinode High Availability中的硬件故障
  • 恢复 — 清除机箱硬件故障(例如:更换或修理故障硬件组件)时,将发生故障恢复。
  • 结果 - 使用以下命令检查状态:

系统/软件故障

  • 原因 - 软件进程或服务故障或操作系统问题。
  • 检测 — 在多节点高可用性中
    • 无法访问受影响的设备/节点
    • 将系统状态更改为 INELIGIBLE 系统/软件故障的受影响节点上的系统状态。
  • 影响 —如果运行状况良好,流量将故障转移到另一个节点,如图 2 所示
    图 2:多节点高可用性 Software Failure in Multinode High Availability中的软件故障
  • 恢复 — 问题解决后,自动且平稳地从中断中恢复。已担任活动角色的备份节点将继续保持活动状态。以前的活动节点仍作为备份节点。
  • 结果 — 使用 show chassis high-availability information detail 命令检查状态。

网络/连接故障

物理接口(链路)故障

  • 原因 — 接口故障可能是由于网络设备中断、物理电缆中断或配置不一致所致。
  • 检测 — 在多节点高可用性中
    • 无法访问受影响的设备/节点。
    • SRG1 状态在出现网络或连接故障的受影响节点上变为 INELIGIBLE (如果配置了接口监视器)。还可以通过 BFD 或 IP 监控检测路径连接,并根据配置的操作触发事件。
  • 影响 — 接口链路状态的更改将触发故障切换。备份节点承担活动角色,在故障节点上运行的服务将迁移到其他节点,如 图 3 所示。
    图 3:接口故障 Interface Failure
  • 配置 — 要配置 BFD 监控和接口监控,请使用以下配置语句:

    应监控对流量至关重要的所有链路。

    检出 示例: 在第 3 层网络中配置多节点高可用性 有关完整的配置详细信息。

  • 恢复 — 修复/更换故障接口时恢复。网络/连接故障恢复后,SRG1 会从“不合格”状态变为“备份”状态。新的活动节点继续向上游路由器播发更好的指标并处理流量。
  • 结果 - 使用以下命令检查状态:
  • 有关配置接口的信息,请参阅 配置多节点高可用性 在第 3 层网络中, 配置多节点高可用性 在混合部署中, 配置多节点高可用性 在默认网关部署中,接口 故障排除

机箱间链路 (ICL) 故障

  • 原因 — ICL 故障可能是由于网络中断或配置不一致所致。
  • 检测 — 在多节点高可用性中,节点之间无法相互访问,它们会启动活动性确定探测(ICMP 探测)。
  • 影响— 在多节点高可用性系统中,ICL 连接活动节点和备份节点;如果 ICL 出现故障,两台设备都将注意到此变化并启动活动性探针(ICMP 探针)。进行主动性探测以确定可以对每个 SRG1+ 发挥主动作用的节点。根据探测结果,其中一个节点将转换为活动状态。

    图 4 所示,SRX-1 和 SRX-2 之间的 ICL 下降。两台设备无法相互访问,并开始向上游路由器发送活动性探测。由于 SRX-1 在路由器配置中位于优先级更高的路径上,因此它将承担主动角色,继续处理流量并播发优先级更高的路径。另一个承担备份角色。

    图 4:多节点高可用性 ICL Failure in Multinode High Availability中的 ICL 故障
  • 配置 — 要配置活动性探测,请使用以下配置语句:

    查看 在第 3 层网络中配置多节点高可用性 ,了解完整的配置详细信息。

  • 结果 - 使用以下命令检查状态:
  • 恢复 — 一旦其中一个节点担任活动角色,多节点高可用性将重新启动冷同步过程并重新同步控制平面服务 (IPSec VPN)。SRG 状态信息将在节点之间重新交换。

节点仍处于隔离状态

  • 原因 — 在多节点高可用性设置中,节点在重新启动后仍处于隔离状态,并且关联的接口在以下情况下继续保持关闭状态:
    • 机箱间链路 (ICL) 在启动后无法连接到其他节点,直到冷同步完成

    • shutdown-on-failure 选项配置在 SRG0 上

      注意:

      如果另一台设备停止服务,也可能发生上述原因。

  • 检测 — SRG0 状态显示 ISOLATED 为命令输出中。
  • 恢复 — 当另一个节点联机且 ICL 可以交换系统信息时,或者当您移除 shutdown-on-failure 语句并提交配置时,节点将自动恢复。

    使用以 delete chassis high-availability services-redundancy-group 0 shutdown-on-failure 删除语句。

    如果上述解决方案不适合您的环境,您可以使用选项 install-on-failure-route 。在此选项中,多节点高可用性设置使用定义的信号路由,通过路由策略选项更平稳地处理上述情况,这类似于 SRG1+ 中提供的主动信号路由和备份信号路由方法。

灵活路径监控

从 Junos OS 23.4R1 版开始,我们为以下现有路径监控功能添加了新的增强功能:

  • IP 监控
  • BFD 监控
  • 接口监控

这些增强功能通过以下方式为路径监控功能添加了更精细的控制:

  • 除 SRG1+ 外,还扩展了对 SRG0 的监控
  • 监控功能分组
  • 支持基于与服务冗余组 (SRG) 路径关联的方向进行监控
  • 添加与每个监控功能关联的权重

通过将相关功能组合在一起,系统可以将它们作为一个单元进行处理,从而可以提高计算效率和资源利用率。

SRG 监控对象

让我们通过下图了解监控对象的概念。

图 5:SRG 监控对象 SRG Monitoring Objects

您可以按服务冗余组配置监控选项。也就是说,如果 SRG 中的特定项目发生故障,则该 SRG 可以故障转移到另一个节点。每个 SRG 都包含一个或多个监控对象。

监控对象中可用的监控功能包括 BFD 活动、接口监控和 IP 监控。每个特征都具有关联的阈值和权重属性。

在监视对象中,每当特定对象由于 IP/接口/BFD 监视而无法触发故障切换时,系统就会将该事件视为监视失败。软件会根据故障对象的权重添加计数。

当计数超过 IP/interface/BFD 的阈值时,系统会将计数添加到父监控对象的阈值中。

当绑定到 SRG 的所有监控对象的阈值之和等于或大于 SRG 上配置的阈值时,系统将触发该 SRG 的监控故障。SRG 故障转移到另一个节点。

路径监控配置

让我们考虑以下示例,了解 图 6 中所示的拓扑。在此设置中,我们将为节点 2 设备上的 SRG1 配置路径监控选项。

图 6:路径监控配置示例 Path Monitoring Configuration Sample

在此示例中,要配置路径监控选项,请执行以下操作:

  • 将聚合以太网接口 (ae) 用于机箱间链路 (ICL),并使用 xe-1/0/x 接口连接到相邻路由器。
  • 创建两个监视对象“network-A”和“network-B”。 网络 A网络 B 监控对象包括 SRX 系列设备与相邻路由器之间配置的所有 IP 地址和接口。
  • 配置 BFD 以监控相邻路由。
  • 配置 IP 监控以监控未直接连接到 SRG1 的路由。
  • 在直接连接的链路或下一跃点上配置接口监控。

下表显示了样本权重和阈值分配。

表 2:监视器对象的权重和阈值(示例)

监视对象

BFD型

IP

接口

监控对象阈值

SRG 阈值

 

门槛

重量

门槛

重量

门槛

重量

网络-A

100

50

100

50 (10.10.10.1, 10.20.20.1, 10.30.30.1)

100

25(xe-1/0/1 和 xe-1/0/2)

50(AE0 和 AE1)

100

100

网络-B

100

50

100

50 (10.11.11.1, 10.12.12.1, 10.13.13.1)

100

25(xe-1/0/3 和 xe-1/0/4)

50(AE2 和 AE3)

200

注意:
  • 每个 SRG 最多可以配置 10 个监控对象。
  • 您可以像在 Junos OS 23.4 中一样配置 SRG 监控(带有 SRG 阈值和监控对象),也可以将监控选项配置为 Junos OS 23.4R1 版之前支持的选项。不支持同时使用这两种配置样式。
  • 配置 monitor-objects 与在 SRG 0 和 SRG1+ 上相同。

配置示例:

在以下配置片段中,服务冗余组 (SRGx) 包括两个监控对象:网络 A网络 B。每个监控对象都配置了 IP 监控、接口监控和 BFD 检测,并配置了相应的权重和阈值。

  • 设置 SRG 阈值。
  • 配置 monitor-object network-A
    • 设置监视对象阈值。
    • 配置 BFD 监控选项。

    • 配置 IP 监控的权重和阈值。

    • 配置接口监控的权重和阈值。
  • 配置 monitor-object network-B

    • 设置监视对象阈值。

    • 在 monitor-object 中配置 BFD 监控。

    • 配置 IP 监控的权重和阈值。

    • 配置接口监控的权重和阈值。

让我们以示例中的 network-B monitor-object 为例。

系统具有接口监控阈值 100,并为成员接口分配了权重(50、50、25 和 25)。如果权重为 50 的接口出现故障,则会将接口的权重值 (50) 添加到计数中,并与接口监控的阈值进行比较。也就是说,计数为 50,接口阈值为 100。计数仍小于接口阈值。

如果另一个权重为 50 的接口出现故障,则计数将递增 50,并与接口监控的阈值进行比较。计数现在等于接口阈值 100。当计数等于阈值时,系统会将此值 (100) 添加到监视对象 (network-B) 的计数中。monitor-object network-B 的阈值为 200。计数 (100) 仍小于 object-monitor 的阈值。

同样,如果 IP 监视器或 BFD 监视器也达到各自的阈值并添加到对象监视器的计数中,则计数将递增并与对象监视器的阈值进行比较。一旦计数抑制对象监视器的阈值,系统就会将该计数添加到 service-redundancy-group (SRG-1) 的计数中。如果网络 A 和网络 B 对象监视器计数的总和超过 SRG-1 的阈值,则系统会触发到另一个节点的故障切换。

检查监控对象配置

show chassis high-availability services-redundancy-group 1使用或 show chassis high-availability services-redundancy-group <id> monitor-object <name> 命令。

以下示例显示了命令的 show chassis high-availability services-redundancy-group 1 输出。

在命令输出中,您可以看到监控对象 Network-BNetwork-A的状态。您还可以注意到,输出中的故障对象详细信息及其阈值和权重。