Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

弹性配置和高可用性

Contrail SD-WAN 解决方案富有弹性,可在所有层级提供高可用性。因此,网络可以在各种故障之间无缝运行,并尽可能缩短停机时间。以下各节将讨论每一层的高可用性。

网络控制平面

控制平面本身是 Contrail SD-WAN 解决方案中的分布式实体。控制平面通过 VRR 启用,VRR 与本地设备对等,并根据来自路由管理器和策略/SLA 管理器微服务的信息动态设置路由。

路由反射器以分层结构部署。本地设备与其最近的区域路由反射器对等,而区域路由反射器本身与其他路由反射器对等。

无外设转发

如果本地设备失去与 SD-WAN 控制器中的路由反射器的连接,这些设备仍能够继续转发流量。这称为无外设作。这种情况将是次优的,因为控制器无法监控和建议新路由,但路径仍然存在,并且流量将以最大努力的方式转发。

在无外设模式下,不会对设备进行新的配置或策略更改,也不会报告设备的新数据。恢复连接后,设备会与控制器签入,以确保其具有最新的路由和配置信息。

数据平面

CSO 3.3 及更高版本支持本地设备冗余。一个站点可以包含一个由两个节点组成的群集(分别充当主节点和辅助节点),以防止设备和链路故障。如果主节点发生故障,或者与主节点的链路断开,流量将流经辅助节点。

分支冗余

分支站点可以通过互连两个 CPE 设备来创建单个逻辑安全路由器,从而实现冗余。可以使用 NFX 系列或 SRX 系列防火墙。

使用 NFX 系列设备

图 1 显示了使用 NFX 系列设备的分支冗余设置,每个设备都安装了 vSRX 虚拟防火墙虚拟防火墙。通过创建 SRX 机箱群集以形成单个逻辑节点,两台 CPE 设备实现互连。群集使用冗余以太网 (reth) 接口连接到 Junos 控制平面 (JCP) 组件,该组件充当交换机,提供设备内外的连接。

图 1:双 CPE 设备 - NFX 系列网络服务平台 Dual CPE Devices - NFX Series Network Services Platforms

使用 SRX 系列防火墙

图 2 显示了使用 SRX 系列防火墙的分支冗余设置。两台 CPE 设备使用机箱群集互连,形成单个逻辑节点。

图 2:双 CPE 设备 - SRX 系列防火墙 Dual CPE Devices - SRX Series Firewalls

同样,设备两端的多个连接可提供链路冗余 LAN 端使用主动/备用链路,这些链路作为 reth 接口捆绑在 SRX 群集上。WAN 端使用分布在两台设备上的所有四个活动 WAN 链路。

故障切换方案

表 x 描述了分支冗余设置将如何对各种故障场景做出反应。

场景

NFX 行为

SRX 行为

设备故障

vSRX 虚拟防火墙群集的节点故障切换

SRX 机箱群集的节点故障切换

GWR vSRX 虚拟防火墙虚拟机故障

vSRX 虚拟防火墙群集的节点故障切换

不适用

LAN 端链路故障

JCP - 针对单个链路故障的基于 LAG 的保护

vSRX 虚拟防火墙 - 如果到某个节点的所有 LAN 链路都出现故障,则将故障切换至其他群集节点

基于 LAG 的单个链路故障保护

如果到某个节点的所有 LAN 链路都失败,则重新将故障转移到另一个群集节点

WAN 端链路故障

与单 CPE 相同 - 跨其余链路进行 ECMP,直到 SD-WAN 控制器实施 SLA

互连物理链路故障

JCP - 基于 LAG 的保护

无内置;可以使用节点之间的两个互连交换机添加基于 LAG 的保护

Usage Notes

您必须使用相同型号的 NFX 系列或 SRX 系列防火墙,并且设备(主设备和辅助设备)必须安装相同版本的 Junos OS。

使用分支冗余时,不支持以下 SD-WAN 功能:

  • LTE WAN 备份链路

  • 服务链支持

有关分支冗余的更多信息,请参阅 CSO 用户指南中的 设备冗余支持概述

集线器冗余(CPE 多宿主)

对于中心辐射型拓扑,还可以通过在主动/备份设置中部署两个中心设备,在中心端提供冗余。如果主集线器出现故障,或者通向主集线器的所有叠加隧道都发生故障,流量将切换至辅助集线器。当主枢纽再次启动并建立隧道时,流量将移回主枢纽。

双集线器模式也可用于主/辅助模式。例如,轮毂可能是一半辐射的主要辐射,而另一半的辅助辐射。这样,负载就以主动/主动的方式分布在所有对的集线器设备上。请注意,此模式需要对中枢设备进行网格划分,以保持网络中的流量对称性。

设计方案

根据设计要求,有几种方法可以在中心设备和分支设备之间实现冗余:

  • Single Spoke Device Multihomed to Dual Hub Devices; Single Access

    图 3 显示了如何通过单次访问将单辐设备多宿主到双中心设备。

    图 3:一个分支设备,一条通往每个集线器 One Spoke Device, One Tunnel to Each Hub的隧道

    在此方案中,中心设备处于主动/备份配置中,分支站点前缀将路由到活动中心。

  • Single Spoke Device Multihomed to Dual Hub Devices; Multiple Access

    图 4 显示了如何将单辐射设备多宿主到具有多重访问权限的双中心设备。

    图 4:一个分支设备,每个集线 One Spoke Device, Two Tunnels to Each Hub器有两条隧道

    与前面方案一样,中心设备处于主动/备份配置中,分支站点前缀路由到活动中心。此外,分支站点具有通过每个接入网络到每个集线器的叠加链接。APBR 通过所有可能的叠加将流量从 CPE 设备路由到活动中心。

  • Clustered Spoke Devices Multihomed to Dual Hub Devices; Multiple Access

    图 5 显示了双 CPE 设备如何多宿主到双集线器设备,每个 CPE 设备都有多次访问。

    图 5:分支集群,每个集线 Spoke Cluster, One Tunnel to Each Hub器一个隧道

    与前面方案一样,中心设备处于主动/备份配置中,分支站点前缀路由到活动中心,APBR 通过所有可能的叠加将流量从活动 CPE 设备路由到活动中心。在这种情况下,CPE 设备也处于主动/被动配置中。

    辐射站点有八个叠加隧道:

    • 活动 CPE 到活动集线器 - 两个活动链路

    • 活动 CPE 到备份中枢 - 两条备份链路

    • 备份 CPE 到活动集线器 - 两个活动链路

    • 备份 CPE 到备份集线器 - 两个备份链路

    注意:

    CPE 设备多宿主连接到的两个集线器必须是同一类型的设备。

    注意:

    如果使用 NAT,则由于主集线器故障而导致的集线器切换可能会导致站点到互联网和站点到云应用会话发生翻动,因为 NAT 行为会根据变化进行调整。站点到站点会话将在切换后继续正常运行。