Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

多节点高可用性监控选项

监控类型

高可用性故障检测会监控系统、软件和硬件的内部故障。系统还可以使用接口监控、BFD 路径监控和 IP 监控来监控网络连接问题或链路连接,以检测更远目标的可达性。

表 1 提供了多节点高可用性中使用的不同监控类型的详细信息。

表 1:多节点高可用性监控类型
监控类型什么是 检测类型, 范围
BFD 监控 通过检查链路层和实际链路,监控下一跃点的可访问性。
  • 路径故障
  • 链路故障
  • 检测路由连接故障
  • 并非用于检测直接连接/下一跳之外的故障。
IP 监控

监控与位于直接连接接口或下一跃点之外的主机或服务的连接。

  • 路径故障
  • 链路故障
  • 检测发生在更远的主机或服务上的故障。
  • 不用于检测直连链路中发生的故障或下一跳故障。
接口监控

检查链路层是否正常运行。

链路故障
  • 检测直连链路或下一跃点的故障,以及与较远主机或服务的连接。
  • 不用于监控路径

在多节点高可用性中,当监控检测到主机或服务的连接失败时,它会将受影响的路径标记为关闭/不可用,并将受影响节点上的相应服务路由组 (SRG) 标记为不合格。受影响的 SRG 将以有状态方式转换为其他节点,而不会对流量造成任何干扰。

为防止任何流量丢失,多节点高可用性采取以下预防措施:

  • 第 3 层模式 — 将重绘路由,以便正确重定向流量
  • 默认网关或混合模式 — SRG 的新活动节点向连接的交换机发送 GARP(无偿 ARP),以确保流量重新路由

多节点高可用性故障场景

以下部分介绍了可能的故障方案:如何检测故障、要采取的恢复作,以及故障对系统造成的影响(如果适用)。

节点故障

硬件故障

  • 原因 - 硬件组件故障或环境问题(如电源故障)。
  • 检测 — 在多节点高可用性下
    • 无法访问受影响的设备/节点
    • SRG1 状态更改为 INELIGIBLE 发生硬件故障的节点上。
  • 影响 — 流量将故障切换到另一个节点(如果运行正常),如图 1 所示。.
    图 1:多节点高可用性 Network diagram showing failover from SRX-1 to SRX-2 via Interchassis Link. Orange cross on SRX-1 indicates failure. Traffic rerouted to SRX-2. Paths highlighted in orange and blue dashed lines.中的硬件故障
  • 恢复 — 清除机箱硬件故障(例如:更换或修复发生故障的硬件组件)时,将进行故障恢复。
  • 结果 - 使用以下命令检查状态:

系统/软件故障

  • 原因 — 软件进程或服务故障或作系统问题。
  • 检测 — 在多节点高可用性下
    • 无法访问受影响的设备/节点
    • 将系统状态更改为 INELIGIBLE 受系统/软件故障的受影响节点上的系统状态。
  • 影响 — 如果流量运行正常,将故障切换到另一个节点,如图 2 所示
    图 2:多节点高可用性 Network topology with Juniper SRX devices in high availability setup. SRX-1 fails, traffic reroutes to SRX-2. Resilient HA ensures uninterrupted traffic.中的软件故障
  • 恢复 — 问题得到解决后,自动从中断中正常恢复。已担任活动角色的备份节点将继续保持活动状态。以前的活动节点仍作为备份节点。
  • 结果 — 使用 show chassis high-availability information detail 命令检查状态。

网络/连接故障

物理接口(链路)故障

  • 原因 — 接口故障可能是由于网络设备中断、物理电缆中断或配置不一致造成的。
  • 检测 — 在多节点高可用性下
    • 无法访问受影响的设备/节点。
    • SRG1 状态更改为 INELIGIBLE ,在受影响的节点上,并出现网络或连接故障(如果配置了接口监视器)。路径连接也可以通过 BFD 或 IP 监控来检测,并根据配置的作触发事件。
  • 影响 — 接口链路状态的更改会触发故障切换。备份节点担任活动角色,在故障节点上运行的服务将迁移到其他节点,如图 3 所示。
    图 3:接口故障 Network topology with Juniper SRX devices in high availability setup, showing failover paths and connections to routers and network cloud.
  • 配置 — 要配置 BFD 监控和接口监控,请使用以下配置语句:

    对流量至关重要的所有链路都应得到监控。

    查看示例 :在第 3 层网络中配置多节点高可用性, 了解完整的配置详细信息。

  • 恢复 — 修复/更换故障接口时恢复。网络/连接故障恢复后,SRG1 会从 INELIGIBLE 状态变为 BACKUP 状态。新的活动节点继续向其上游路由器通告更好的指标并处理流量。
  • 结果 - 使用以下命令检查状态:
  • 有关在 MNGA 中配置接口的信息,请参阅 示例:在第 3 层网络中配置多节点高可用性。有关接口故障排除,请参阅 接口故障排除

机箱之间链路 (ICL) 故障

  • 原因 — ICL 故障可能是由于网络中断或配置不一致造成的。
  • 检测 — 在多节点高可用性中,节点之间无法相互访问,并且它们会启动主动性确定探测(ICMP 探测)。
  • 影响 — 在多节点高可用性系统中,ICL 连接活动节点和备份节点;如果 ICL 出现故障,两台设备都会注意到此变化并启动主动性探测(ICMP 探针)。主动性探测以确定可以为每个 SRG1+ 担任活动角色的节点。根据探测结果,其中一个节点转换为活动状态。

    图 4 所示,SRX-1 和 SRX-2 之间的 ICL 断开。两台设备无法相互访问并开始向上游路由器发送活动探测。由于 SRX-1 在路由器配置中处于较高的首选路径上,因此会起到主动作用并继续处理流量并通告较高优先级的路径。另一个担任后备角色。

    图 4:多节点高可用性 Network topology featuring Juniper SRX devices in chassis cluster for high availability with active SRX-1 and backup SRX-2.中的 ICL 故障
  • 配置 — 要配置主动性探测,请使用以下配置语句:

    查看在第 3 层网络中配置多节点高可用性 ,了解完整的配置详细信息。

  • 结果 - 使用以下命令检查状态:
  • 恢复 — 一旦其中一个节点担任活动角色,多节点高可用性将重新启动冷同步过程并重新同步控制平面服务 (IPSec VPN)。SRG 状态信息在节点之间重新交换。

节点仍处于隔离状态

  • 原因 — 在多节点高可用性设置中,在以下情况下,节点在重新启动后仍处于隔离状态,并且相关接口继续保持关闭状态:
    • 机箱间链路 (ICL) 在启动后与其他节点没有连接,直到冷同步完成

      以及

    • shutdown-on-failure 选项在 SRG0 上配置

      注意:

      如果另一台设备无法使用,也可能发生上述原因。

  • 检测 — SRG0 状态显示,如ISOLATED命令输出所示。
  • 恢复 — 当另一个节点联机且 ICL 可以交换系统信息时,或者当您移除shutdown-on-failure语句并提交配置时,该节点会自动恢复。

    使用 删除 delete chassis high-availability services-redundancy-group 0 shutdown-on-failure 该语句。

    如果上述解决方案不适合您的环境,您可以使用该 install-on-failure-route 选项。在此选项中,多节点高可用性设置使用定义的信号路由,以便使用路由策略选项更优雅地处理上述情况,这类似于 SRG1+ 中可用的主动信号路由和备份信号路由方法。

灵活的路径监控

从 Junos OS 23.4R1 版开始,我们为以下现有路径监控功能添加了新的增强功能:

  • IP 监控
  • BFD 监控
  • 接口监控

这些增强功能通过以下方式为路径监控功能增加了更精细的控制:

  • 除了 SRG1+ 之外,还扩展了对 SRG0 的监控
  • 监控功能的分组
  • 支持基于与服务冗余组 (SRG) 路径关联的方向进行监控
  • 添加与每个监控功能相关的权重

通过将相关功能组合在一起,系统可以将它们作为一个单元进行处理,从而提高计算和资源利用效率。

SRG 监控对象

让我们通过下图了解监视对象的概念。

图 5:SRG 监控对象 Conceptual diagram of SRGx Threshold system with two Monitor Objects, each containing BFD Liveness, IP Monitoring, and Interface Monitoring Thresholds.

您可以基于每个服务冗余组配置监控选项。也就是说,如果 SRG 中的特定项发生故障,则该 SRG 可以故障切换到另一个节点。每个 SRG 都包含一个或多个监控对象。

监控对象中可用的监控功能包括 BFD 活跃度、接口监控和 IP 监控。这些要素中的每一个都有关联的阈值和权重属性。

在监控对象中,每当特定对象由于 IP/接口/BFD 监控而无法触发故障切换时,系统都会将该事件视为监控失败。软件根据故障对象的重量添加计数。

当计数超过 IP/接口/BFD 的阈值时,系统会将计数添加到父监控对象的阈值中。

当绑定到 SRG 的所有监控对象的阈值之和等于或大于 SRG 上配置的阈值时,系统将触发该 SRG 的监控故障。SRG 故障转移到另一个节点。

路径监控配置

对于 图 6 所示的拓扑,让我们考虑以下示例。在此设置中,我们将在节点 2 设备上为 SRG1 配置路径监控选项。

图 6:路径监控配置示例 Network topology diagram showing SRX-1 and SRX-2 connected via ICL with physical and logical links. Highlights monitoring for Network-A and Network-B with BFD Liveness, IP Monitoring, and Interface Monitoring thresholds and weights.

在此示例中,要配置路径监控选项:

  • 将聚合以太网接口 (ae) 用于机箱间链路 (ICL),并使用 xe-1/0/x 接口连接到相邻路由器。
  • 创建两个监视器对象“network-A”和“network-B”。 网络 A网络 B 监控对象均包含在 SRX 系列设备与相邻路由器之间配置的所有 IP 地址和接口。
  • 配置 BFD 以监控相邻路由。
  • 配置 IP 监控以监控未直接连接到 SRG1 的路由。
  • 在直接连接的链路或下一跃点上配置接口监控。

下表显示了样本权重和阈值分配。

表 2:监控对象的权重和阈值(示例)

监控对象

BFD

IP

接口

监控对象阈值

SRG 阈值

 

阈值

重量

阈值

重量

阈值

重量

网络 A

100

50

100

50 (10.10.10.1, 10.20.20.1, 10.30.30.1)

100

25(xe-1/0/1 和 xe-1/0/2)

50(ae0 和 ae1)

100

100

网络 B

100

50

100

50 (10.11.11.1, 10.12.12.1, 10.13.13.1)

100

25(xe-1/0/3 和 xe-1/0/4)

50(AE2 和 AE3)

200

注意:
  • 每个 SRG 最多可以配置 10 个监控对象。
  • 您可以像在 Junos OS 23.4 中配置 SRG 监控(带有 SRG 阈值和监控对象),也可以配置在 Junos OS 23.4R1 版之前支持的监控选项。不支持组合这两种配置样式。
  • 监控对象的配置与在 SRG 0 和 SRG1+ 上的配置相同。

配置示例:

在以下配置代码段中,服务冗余组 (SRGx) 包括两个监控对象:网络 A网络 B。每个监控对象均配置了各自的权重和阈值的 IP 监控、接口监控和 BFD 检测。

  • 设置 SRG 阈值。
  • 配置 monitor-object network-A
    • 设置监控对象阈值。
    • 配置 BFD 监控选项。

    • 配置 IP 监控的权重和阈值。

    • 配置接口监控的权重和阈值。
  • 配置 monitor-object network-B

    • 设置监控对象阈值。

    • 在监控对象中配置 BFD 监控。

    • 配置 IP 监控的权重和阈值。

    • 配置接口监控的权重和阈值。

让我们以示例中的 网络 B 监视器对象为例。

系统的接口监控阈值为 100,并为成员接口分配了权重(50、50、25 和 25)。如果权重为 50 的接口中断,则接口的权重值 (50) 将添加到计数中,并与接口监控的阈值进行比较。也就是说,计数为 50,接口阈值为 100。计数仍小于接口阈值。

如果另一个权重为 50 的接口宕机,则计数将递增 50,并与接口监控的阈值进行比较。计数现在等于接口阈值 100。当计数等于阈值时,系统会将此值 (100) 添加到监控对象 (network-B) 的计数中。monitor-object network-B 的阈值为 200。计数 (100) 仍小于对象监视器的阈值。

同样,如果 IP 监视器或 BFD 监视器也达到各自的阈值并添加到对象监视器的计数中,则计数将递增并与对象监视器的阈值进行比较。一旦计数抑制对象监视器的阈值,系统就会将计数添加到服务冗余组 (SRG-1) 的计数中。如果网络 A 和网络 B 对象监控计数的总和超过 SRG-1 的阈值,系统将触发故障切换到另一个节点。

检查监控对象配置

使用 show chassis high-availability services-redundancy-group 1show chassis high-availability services-redundancy-group <id> monitor-object <name> 命令。

以下示例显示了命令的 show chassis high-availability services-redundancy-group 1 输出。

在命令输出中,您可以看到监控对象 Network-BNetwork-A的状态。您还可以注意到,故障对象在输出中会详细说明其阈值和权重。