多节点高可用性监控选项
监控类型
高可用性故障检测可监控系统、软件和硬件的内部故障。该系统还可以使用接口监控、BFD 路径监控和 IP 监控来监控网络连接问题或链路连接,以检测更远目标的可达性。
表 1 提供了有关多节点高可用性中使用的不同监控类型的详细信息。
监测类型 | 什么是 | 检测类型 | 范围 |
---|---|---|---|
BFD 监控 | 通过检查链路层和实际链路来监控下一跃点的可访问性。 |
|
|
IP 监控 | 监控与位于直接连接接口或下一跃点之外的主机或服务的连接。 |
|
|
接口监控 | 检查链路层是否可操作。 |
链路故障 |
|
在多节点高可用性中,当监控检测到与主机或服务的连接故障时,它会将受影响的路径标记为关闭/不可用,并将受影响节点上的相应服务路由组 (SRG) 标记为“不合格”。受影响的 SRG 将以有状态方式转换为其他节点,而不会对流量造成任何中断。
为了防止任何流量丢失,多节点高可用性采取了以下预防措施:
- 第 3 层模式 — 将重新绘制路由,以便正确重定向流量
- 默认网关或混合模式 — SRG 的新活动节点向连接的交换机发送 GARP(免费 ARP),以确保重新路由流量
多节点高可用性故障场景
以下各节介绍了可能的故障方案:如何检测故障、要执行的恢复操作以及故障对系统造成的影响(如果适用)。节点故障
硬件故障
- 原因 — 硬件组件故障或电源故障等环境问题。
- 检测 — 在多节点高可用性中
- 无法访问受影响的设备/节点
- SRG1 状态更改为
INELIGIBLE
在发生硬件故障的节点上。
- 影响 —流量将故障转移到另一个节点(如果运行良好),如 图 1 所示。.
图 1:多节点高可用性
中的硬件故障
- 恢复 — 清除机箱硬件故障(例如:更换或修理故障硬件组件)时,将发生故障恢复。
- 结果 - 使用以下命令检查状态:
系统/软件故障
- 原因 - 软件进程或服务故障或操作系统问题。
- 检测 — 在多节点高可用性中
- 无法访问受影响的设备/节点
- 将系统状态更改为
INELIGIBLE
系统/软件故障的受影响节点上的系统状态。
- 影响 —如果运行状况良好,流量将故障转移到另一个节点,如图 2 所示
图 2:多节点高可用性
中的软件故障
- 恢复 — 问题解决后,自动且平稳地从中断中恢复。已担任活动角色的备份节点将继续保持活动状态。以前的活动节点仍作为备份节点。
- 结果 — 使用 show chassis high-availability information detail 命令检查状态。
网络/连接故障
物理接口(链路)故障
- 原因 — 接口故障可能是由于网络设备中断、物理电缆中断或配置不一致所致。
- 检测 — 在多节点高可用性中
- 无法访问受影响的设备/节点。
- SRG1 状态在出现网络或连接故障的受影响节点上变为
INELIGIBLE
(如果配置了接口监视器)。还可以通过 BFD 或 IP 监控检测路径连接,并根据配置的操作触发事件。
- 影响 — 接口链路状态的更改将触发故障切换。备份节点承担活动角色,在故障节点上运行的服务将迁移到其他节点,如 图 3 所示。
图 3:接口故障
-
配置 — 要配置 BFD 监控和接口监控,请使用以下配置语句:
set chassis high-availability services-redundancy-group <1> monitor bfd-liveliness <source-ip-address> <destination-ip-address> routing-instance <routing-instance-name> <single-hop| multihop> <interface-name>
set chassis high-availability services-redundancy-group <1> monitor interface <interface-name>
应监控对流量至关重要的所有链路。
检出 示例: 在第 3 层网络中配置多节点高可用性 有关完整的配置详细信息。
- 恢复 — 修复/更换故障接口时恢复。网络/连接故障恢复后,SRG1 会从“不合格”状态变为“备份”状态。新的活动节点继续向上游路由器播发更好的指标并处理流量。
- 结果 - 使用以下命令检查状态:
-
有关配置接口的信息,请参阅 配置多节点高可用性 在第 3 层网络中, 配置多节点高可用性 在混合部署中, 配置多节点高可用性 在默认网关部署中,接口 故障排除。
机箱间链路 (ICL) 故障
- 原因 — ICL 故障可能是由于网络中断或配置不一致所致。
- 检测 — 在多节点高可用性中,节点之间无法相互访问,它们会启动活动性确定探测(ICMP 探测)。
- 影响— 在多节点高可用性系统中,ICL 连接活动节点和备份节点;如果 ICL 出现故障,两台设备都将注意到此变化并启动活动性探针(ICMP 探针)。进行主动性探测以确定可以对每个 SRG1+ 发挥主动作用的节点。根据探测结果,其中一个节点将转换为活动状态。
如 图 4 所示,SRX-1 和 SRX-2 之间的 ICL 下降。两台设备无法相互访问,并开始向上游路由器发送活动性探测。由于 SRX-1 在路由器配置中位于优先级更高的路径上,因此它将承担主动角色,继续处理流量并播发优先级更高的路径。另一个承担备份角色。
图 4:多节点高可用性中的 ICL 故障
-
配置 — 要配置活动性探测,请使用以下配置语句:
set chassis high-availability services-redundancy-group <1> activeness-probe <destination-ip-address> routing-instance <routing-instance-name>
查看 在第 3 层网络中配置多节点高可用性 ,了解完整的配置详细信息。
- 结果 - 使用以下命令检查状态:
show chassis high-availability information detail
show chassis high-availability services-redundancy-group 1
-
使用 ping 选项检查来自上游路由器的 ICMP 数据包回复。示例:
ping <activeness-probe-dest-ip> source <activeness-probe-source-ip> routing-instance <routing-instance-name>
.
-
恢复 — 一旦其中一个节点担任活动角色,多节点高可用性将重新启动冷同步过程并重新同步控制平面服务 (IPSec VPN)。SRG 状态信息将在节点之间重新交换。
节点仍处于隔离状态
- 原因 — 在多节点高可用性设置中,节点在重新启动后仍处于隔离状态,并且关联的接口在以下情况下继续保持关闭状态:
-
机箱间链路 (ICL) 在启动后无法连接到其他节点,直到冷同步完成
和
-
该
shutdown-on-failure
选项配置在 SRG0 上注意:如果另一台设备停止服务,也可能发生上述原因。
-
- 检测 — SRG0 状态显示
ISOLATED
为命令输出中。 -
恢复 — 当另一个节点联机且 ICL 可以交换系统信息时,或者当您移除
shutdown-on-failure
语句并提交配置时,节点将自动恢复。使用以
delete chassis high-availability services-redundancy-group 0 shutdown-on-failure
删除语句。如果上述解决方案不适合您的环境,您可以使用选项
install-on-failure-route
。在此选项中,多节点高可用性设置使用定义的信号路由,通过路由策略选项更平稳地处理上述情况,这类似于 SRG1+ 中提供的主动信号路由和备份信号路由方法。
灵活路径监控
从 Junos OS 23.4R1 版开始,我们为以下现有路径监控功能添加了新的增强功能:
- IP 监控
- BFD 监控
- 接口监控
这些增强功能通过以下方式为路径监控功能添加了更精细的控制:
- 除 SRG1+ 外,还扩展了对 SRG0 的监控
- 监控功能分组
- 支持基于与服务冗余组 (SRG) 路径关联的方向进行监控
- 添加与每个监控功能关联的权重
通过将相关功能组合在一起,系统可以将它们作为一个单元进行处理,从而可以提高计算效率和资源利用率。
SRG 监控对象
让我们通过下图了解监控对象的概念。

您可以按服务冗余组配置监控选项。也就是说,如果 SRG 中的特定项目发生故障,则该 SRG 可以故障转移到另一个节点。每个 SRG 都包含一个或多个监控对象。
监控对象中可用的监控功能包括 BFD 活动、接口监控和 IP 监控。每个特征都具有关联的阈值和权重属性。
在监视对象中,每当特定对象由于 IP/接口/BFD 监视而无法触发故障切换时,系统就会将该事件视为监视失败。软件会根据故障对象的权重添加计数。
当计数超过 IP/interface/BFD 的阈值时,系统会将计数添加到父监控对象的阈值中。
当绑定到 SRG 的所有监控对象的阈值之和等于或大于 SRG 上配置的阈值时,系统将触发该 SRG 的监控故障。SRG 故障转移到另一个节点。
路径监控配置
让我们考虑以下示例,了解 图 6 中所示的拓扑。在此设置中,我们将为节点 2 设备上的 SRG1 配置路径监控选项。

在此示例中,要配置路径监控选项,请执行以下操作:
- 将聚合以太网接口 (ae) 用于机箱间链路 (ICL),并使用 xe-1/0/x 接口连接到相邻路由器。
- 创建两个监视对象“network-A”和“network-B”。 网络 A 和 网络 B 监控对象包括 SRX 系列设备与相邻路由器之间配置的所有 IP 地址和接口。
- 配置 BFD 以监控相邻路由。
- 配置 IP 监控以监控未直接连接到 SRG1 的路由。
- 在直接连接的链路或下一跃点上配置接口监控。
下表显示了样本权重和阈值分配。
监视对象 |
BFD型 |
IP |
接口 |
监控对象阈值 |
SRG 阈值 |
|||
---|---|---|---|---|---|---|---|---|
门槛 |
重量 |
门槛 |
重量 |
门槛 |
重量 |
|
|
|
网络-A | 100 |
50 |
100 |
50 (10.10.10.1, 10.20.20.1, 10.30.30.1) |
100 |
25(xe-1/0/1 和 xe-1/0/2) 50(AE0 和 AE1) |
100 |
100 |
网络-B | 100 |
50 |
100 |
50 (10.11.11.1, 10.12.12.1, 10.13.13.1) | 100 |
25(xe-1/0/3 和 xe-1/0/4) 50(AE2 和 AE3) |
200 |
- 每个 SRG 最多可以配置 10 个监控对象。
- 您可以像在 Junos OS 23.4 中一样配置 SRG 监控(带有 SRG 阈值和监控对象),也可以将监控选项配置为 Junos OS 23.4R1 版之前支持的选项。不支持同时使用这两种配置样式。
- 配置 monitor-objects 与在 SRG 0 和 SRG1+ 上相同。
配置示例:
在以下配置片段中,服务冗余组 (SRGx) 包括两个监控对象:网络 A 和 网络 B。每个监控对象都配置了 IP 监控、接口监控和 BFD 检测,并配置了相应的权重和阈值。
- 设置 SRG 阈值。
set chassis high-availability services-redundancy-group x monitor srg-threshold 100
- 配置 monitor-object
network-A
。- 设置监视对象阈值。
set chassis high-availability services-redundancy-group x monitor monitor-object network-A object-threshold 100
-
配置 BFD 监控选项。
set chassis high-availability services-redundancy-group x monitor monitor-object network-A bfd-liveliness threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A bfd-liveliness dst-ip 10.1.1.1 src-ip 10.1.1.2 session-type multi-hop weight 100
-
配置 IP 监控的权重和阈值。
set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 10.10.10.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 20.20.20.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 30.30.30.1 weight 50
- 配置接口监控的权重和阈值。
set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name xe-1/0/1 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name xe-1/0/2 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name ae0 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name ae1 weight 50
- 设置监视对象阈值。
-
配置 monitor-object
network-B
。-
设置监视对象阈值。
set chassis high-availability services-redundancy-group x monitor monitor-object network-B object-threshold 200
-
在 monitor-object 中配置 BFD 监控。
set chassis high-availability services-redundancy-group x monitor monitor-object network-B bfd-liveliness threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B bfd-liveliness dst-ip 10.2.2.1 src-ip 10.2.2.2 session-type multi-hop weight 100
-
配置 IP 监控的权重和阈值。
set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.11.11.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.21.21.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.31.31.1 weight 50
-
配置接口监控的权重和阈值。
set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name xe-1/0/3 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name xe-1/0/4 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name ae2 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name ae3 weight 50
-
让我们以示例中的 network-B monitor-object 为例。
系统具有接口监控阈值 100,并为成员接口分配了权重(50、50、25 和 25)。如果权重为 50 的接口出现故障,则会将接口的权重值 (50) 添加到计数中,并与接口监控的阈值进行比较。也就是说,计数为 50,接口阈值为 100。计数仍小于接口阈值。
如果另一个权重为 50 的接口出现故障,则计数将递增 50,并与接口监控的阈值进行比较。计数现在等于接口阈值 100。当计数等于阈值时,系统会将此值 (100) 添加到监视对象 (network-B) 的计数中。monitor-object network-B 的阈值为 200。计数 (100) 仍小于 object-monitor 的阈值。
同样,如果 IP 监视器或 BFD 监视器也达到各自的阈值并添加到对象监视器的计数中,则计数将递增并与对象监视器的阈值进行比较。一旦计数抑制对象监视器的阈值,系统就会将该计数添加到 service-redundancy-group (SRG-1) 的计数中。如果网络 A 和网络 B 对象监视器计数的总和超过 SRG-1 的阈值,则系统会触发到另一个节点的故障切换。
检查监控对象配置
show chassis high-availability services-redundancy-group 1
使用或 show chassis high-availability services-redundancy-group <id> monitor-object <name>
命令。
以下示例显示了命令的 show chassis high-availability services-redundancy-group 1
输出。
user@host> show chassis high-availability services-redundancy-group 1 SRG failure event codes: BF BFD monitoring IP IP monitoring IF Interface monitoring PM Path monitoring CP Control Plane monitoring ............................................. SRG Path Monitor Info: SRG Monitor Status: UP SRG Monitor Threshold: 100 SRG Monitor Weight: 0 SRG Monitor Failed Objects: [ NONE ] Object Name: Network-B Object Status: UP Object Monitored Entries: [ IP IF BFD ] Object Failures: [ IP ] Object Threshold: 200 Object Current Weight: 0 Object Name: Network-A Object Status: UP Object Monitored Entries: [ IP IF BFD] Object Failures: NONE Object Threshold: 100 Object Current Weight: 0
在命令输出中,您可以看到监控对象 Network-B
和 Network-A
的状态。您还可以注意到,输出中的故障对象详细信息及其阈值和权重。