网络运维
在将 CSO 部署为本地部署时,了解网络如何运行以及正在使用的协议很有帮助。使用云托管部署时,概念都是相同的,但细节和控制对订阅者是看不见的:他们是在云中安装 CSO 的团队的责任
与大多数网络一样,Contrail SD-WAN 解决方案通常以两个平面运行:
控制平面 - OAM 和路由流量
数据(转发)平面 - 用户流量
Control Plane Operation
Contrail SD-WAN 解决方案的控制平面围绕 CSO 平台展开。更具体地说:
CSO 的网络服务控制器 (NSC) 层使用 vR 实施控制平面。
跨所有租户的所有站点都与 vRR 建立 MP-IBGP 对等互连。
CSO 对所有租户使用一个专用 AS 编号,并通过路由目标实现租户分离。
租户路由分离由 vRR 和使用 BGP 扩展社区的多租户中心设备提供。
vRR 设计
所有 CSO 部署都包含一个或多个 vRR 实例,这些实例为 SD-WAN 环境提供控制平面功能。 图 1 显示了一个常规示例,其中每个站点的本地设备与 vRR 对等。

图 2 显示了 vRR 的 CLI 输出的示例。

控制平面弹性
CSO 3.3 及更高版本支持安装多个 vR,以提供冗余和扩展。CSO 将 vR 分成两个冗余组 (LAG),并使单个虚拟 IP 地址对网络可见。作为站点配置的一部分,CSO 在设备和每个 RG 中的 vRR 之间建立 BGP 对等会话。如果主 vRR 出现故障或连接丢失,则第二个 vRR 将继续接收并播发所连接站点的 LAN 路由,从而提供冗余。 图 3 展示了这种设计。

路由分配和分离
Contrail SD-WAN 解决方案使用 Junos OS 虚拟路由和转发 (VRF) 实例和 MP-BGP 路由目标提供租户路由分离并启用多租户。
以 MPLS VPN 环境为例,可以很好地说明这些概念。如图 4 所示,每个客户都会获得一个唯一的路由目标值,而客户 VPN 的所有站点都会使用该路由目标值。当路由器播发客户的路由信息时,它会根据客户 VRF 发起播发的哪个路由目标值附加相应的路由目标值。接收路由器使用附加的路由目标值来识别应将接收的路由信息放入的客户 VRF。

MPLS VPN 中心辐射型环境使用路由目标的方式不同,如图 5 所示。对于每个客户,每个辐射 VRF 在发送路由信息时附加相同的路由目标值。接收路由器接受具有相同路由目标值的路由,并将其安装到中枢 VRF 中。相比之下,中心 VRF 在发送路由信息时附加了不同的路由目标值,接收路由器接受具有相同路由目标值的路由,并将路由安装到辐射 VRF 中。
在此设置中,只有中心 VRF 接受辐射 VRF 的路由,只有辐射 VRF 接受来自中心 VRF 的路由。使用此方法时,轮辐站点需要的路由信息非常少(可能只是默认路由),因为它们只需要可访问中枢站点,从而使路由表保持小而无扰动。

上述中心辐射型示例是一个很好的基础,因为 Contrail SD-WAN 解决方案在将流量从一个站点转发到另一个站点,或将流量分流到本地互联网时,以相同的方式实施路由分配和分离。
图 6 显示了一个分支站点示例,其中分支设备配置了两个叠加隧道和本地分支,所有流量都流出同一个接口。每个流量路径都有自己的 VRF,路由目标在分支站点和中枢站点进行适当分配,以确保租户路由分离正确。

APBR 和 SLA 管理 - 控制平面
基于策略的高级路由 (APBR) 使您能够定义每个应用(组)的路由行为和路径选择。APBR 机制根据众所周知的应用程序和用户定义的应用程序签名对会话进行分类,并使用策略意图来识别应用程序的最佳路由。基于应用程序的动态路由使定义策略成为可能,这些策略将根据应用程序定义的 SLA 参数动态切换 WAN 链路。
Real-Time Optimized - AppQoE
从 3.3.1 版开始,CSO 支持应用程序体验质量 (AppQoE),这是一种数据平面级别机制,可提供更好的可扩展性并加快决策速度。在设备级别与 APBR、AppQoE 功能协同工作;也就是说,设备本身跨可用 WAN 链路执行 SLA 测量,然后将应用程序流量动态映射到最适合应用程序 SLA 要求的路径。这一切都不需要 CSO 控制器分配特定于 SLA 的路由。
使用 AppQoE 时,当发生 SLA 违规时,只会将报告 SLA 违规的应用程序对应的流量移动到备用链路;使用链路的任何其他流量不受影响。
借助实时优化的 SLA 管理,只需默认 VRF,如图 7 所示。默认 VRF 会跨所有链路使用 ECMP。每个 SLA 的下一跃点选择发生在数据路径中(如数据平面部分所述)。

在这种情况下,MPLS 标签仅用于标识租户。
当租户的 SD-WAN 模式设置为 “实时优化”时,AppQoE 将启用。这是 SD-WAN 部署的默认模式。
请注意以下关于 AppQoE:
仅在 SRX 和 vSRX 设备上受支持。
两端必须使用相同的 Junos OS 版本和相同的配置。
支持多宿主。
数据平面操作
本节讨论如何在中心辐射型拓扑中转发数据包。
当分支站点的用户通过本地 CPE 设备发送流量,并且数据包未在本地交换或直接发送到互联网时,将通过隧道发送到中枢设备。来自客户 LAN 的数据包首先封装在 MPLSoGRE 报头内,GRE 目标作为中心设备的 WAN 链路之一。MPLSoGRE 标头中的 MPLS 标签标识将在中枢站点转发数据包的 VRF。生成的数据包标头如图 8 所示。

如果辐射站点和中心站点之间的隧道配置为使用 IPsec,则 MPLSoGRE 数据包将进一步加密并封装在使用隧道模式的 IPsec 标头中。生成的数据包标头如图 9 所示。

在中心,首先对 IPsec 报头进行解密。生成的数据包的 MPLSoGRE 报头用于终止 GRE 隧道,并在使用 MPLS 标签标识的相应 VRF 中执行查找。根据 VRF 中的路由查找,数据包被转发到其他分支站点,或转发出 SD-WAN 环境。如果转发到其他分支设备,则中心设备将按上述方式封装数据包。
Design Options
图 10 说明了通常如何使用上述数据包标头部署隧道。鉴于需要通过公共网络进行安全数据包传输,GREoIPSec 隧道通常通过互联网路径使用。GRE 隧道通常用于 MPLS 路径,但 GREoIPSec 选项也可根据需要使用。

APBR and SLA Management - Data Plane
如前所述,租户可以为应用程序流量选择一种 SD-WAN SLA 管理模式:
实时优化 – 使用 AppQoE 的设备级 SLA 管理
AppQoE 是一种数据平面级机制,可提供更好的可扩展性并加快决策速度。借助 AppQoE,链路交换发生在设备数据路径的应用程序级别;设备本身跨可用的 WAN 链路执行 SLA 测量,而无需 CSO 控制器。
使用两种类型的内联探针进行链路监控:
无源探测器
与应用程序流量一起运行的内联探测器
模拟应用程序流的爆发性
支持对应用会话的 RTT、抖动、丢包情况进行监控
用于监控当前使用的路径是否符合 SLA,检测 SLA 违规
有源探针
定期探测(基于配置),收集所有潜在路径上的 SLA 数据
用于确定流量的原始最佳路径
用于监控备用路径
当租户的 SD-WAN 模式设置为 “实时优化”时,AppQoE 将启用。
Tunnel Liveliness
为了避免黑洞流量,在叠加网络中实施适当的实时性检查。Contrail SD-WAN 解决方案使用两种机制来确保活跃:
IPsec 失效对等方检测 (DPD),用于何处
GRE 激活验证
网格标签和动态网状 VPN
正如在部署模型讨论中提到的,动态网状是瞻博网络在 CSO 内实现全网状 VPN 的资源节约型方案。本节介绍它们启用的网格标记和动态网状 VPN 的操作。
Mesh Tags
网格标记是基于文本的标签,在 CSO 的加载过程中应用于 CPE 和中枢设备的 WAN 接口。CSO 附带两个默认网状标记:互联网和 MPLS。您可以使用 CSO 管理门户创建自己的网格标记。只能在共享相同网格标记的 WAN 接口之间形成按需或动态 VPN。
接下来将讨论网格标记的工作原理及其应用的一些用例。
如上所述,每个站点都会对 CPE 设备的每个 WAN 接口应用一个网格标记。在 NFX150 和 NFX250 等辐射设备以及大多数 SRX 设备上,每个 WAN 接口只能应用一个网格标记。在提供商中心和企业中心设备上,如 SRX4x00 系列设备,由于设备的 VPN 功能增加,可以为每个接口应用多个网格标记。
下面的列表有助于说明网格标记和动态网状 VPN 会发挥作用的各种用例。
Connecting Different Underlay Links
Site-to-Site Tunnels Based on Capacity
Geo-Based Meshing
With Dual CPE
Dynamic Mesh Load Balancing
Redundant Link
Dynamic Mesh VPNs
图 11 显示了三个分支站点之间的动态网状 VPN 拓扑,并介绍了如何启动站点到站点 VPN。

1
—
使用 ZTP 配置到中枢站点的站点和隧道。站点到站点的流量通过站点到中枢数据隧道。
|
4
—
CSO 在站点对之间配置按需站点到站点隧道。
|
2
—
CSO 从设备接收系统日志消息,其中包含有关流量速率的详细信息。
|
5
—
站点到站点流量现在切换到新形成的站点到站点隧道。
|
3
—
CSO 识别到 Phoenix 站点 1 和休斯顿站点 2 之间的流量超过 KPI 阈值。
|
隧道删除也由 CSO 使用流量阈值和系统日志消息进行控制和自动化。
互联网分支
虽然发往互联网的流量可以通过叠加隧道和中央站点发送,但隧道通常旨在支持站点到站点的流量。对于非 SD-WAN 目标,本地分支提供将流量从本地设备直接发送到互联网的选项。本地分支允许租户在每个站点以最佳方式使用其网络带宽,并避免产生将所有流量运送到中央站点的成本。
本地分支是 SD-WAN 部署的一项重要功能,因为如今许多企业都在使用托管在企业网络外部的 SaaS 服务。由于大多数 SaaS 应用都使用 SSL 作为传输,并且支持企业 AAA 系统的单点登录,因此尽管通过互联网直接发送流量,但安全问题仍得到解决。
WAN Interface Options
本地设备的 WAN(MPLS 和互联网)接口可以任意组合支持隧道和本地分支流量:
仅隧道流量
隧道和本地分支流量
仅本地分支流量
Design Options
实施本地分支的方法有多种,具体取决于设计要求。
Breakout at Spoke
轮辐站点的本地分支允许用户直接访问互联网,而无需通过叠加网络将流量发送到中枢,从而有助于节省隧道带宽。此选项可在互联网或 MPLS WAN 链路上实施。 图 12 展示了这一概念。

使用本地分支时,您可以指定基于接口的 NAT 或基于池的 NAT。
Breakout at Provider Hub (Central Breakout)
提供商中枢站点的中央分支支持中心辐射型部署,其中分支站点将互联网发往的流量通过叠加网络转发到提供商中枢设备,然后提供商中枢设备将流量转发到互联网,如图 13 所示。

中枢站点的中央分支的启用方式与轮辐站点的启用方式不同。您可以通过第 2 阶段模板在 CSO 中手动配置。
还可以通过 Enterprise Hub 站点向辐射站点提供中央分支。在这种情况下,企业中枢可以使用底层网络进行转发来实施本地分支,也可以从数据中心部门接收默认路由并将其传播到分支。
如果通过默认路由方法在提供商中心和企业中心提供中央分支,则使用 BGP 本地优先级首选来自企业中心的默认路由。
Cloud Breakout
面向互联网流量的另一个分支选项云分支选项适用于辐射式和企业中心站点。启用云分支后,轮辐站点或企业中枢站点会将向互联网发送的流量转发至 Zscaler,以便进行进一步的安全相关处理,然后再将其发送至互联网。在通过分支发送流量之前,Zscaler 帐户必须处于活动状态并可访问。
Usage Notes for Cloud Breakout
云分支支持对 WAN 链路使用公共 IP 地址的通用路由封装 (GRE) 隧道。
使用 GRE 隧道时,CPE 设备不能在 NAT 后面。
配置云分支设置时,可以指定 IPsec 第 1 阶段参数、第 2 阶段参数和域名。
您可以为云分支节点指定 IP 地址或主机名验证。
CSO 自动填充 FQDN、预共享密钥和 WAN 链路信息,并提供更改自动填充值的选项。
CSO 支持 SD-WAN 分支站点的 WAN 链路与云分支节点之间的高可用性。
WAN 链路节点可配置为主动/被动或主动/主动。
SD-WAN 分支站点和云分支节点之间最多可定义两个 WAN 链路。
Order of Preference for Scenarios with Multiple Breakout Options
如果辐射站点上的 CPE 有多个分支选项,并且未指定分支策略,则分支的首选顺序为:
数据中心部门/企业中心
本地分支/云分支
提供商中心(中枢)
如果企业中枢站点有多个分支选项,则分支流量的首选顺序为:
无 SD-WAN 策略:
数据中心部门
枢纽
使用 SD-WAN 策略:
本地分支/云分支
数据中心部门
提供商中心(中枢)
Use Cases for Local Breakout
下面介绍了本地分支的一些用例。
Service Provider Data Center
在此用例中,企业客户使用服务提供商的 SD-WAN 服务实现站点到站点间连接。客户还使用从服务提供商的数据中心托管的增值服务。
在辐射站点,内部设备面向 MPLS 的 WAN 接口配置为同时支持隧道和本地分支流量。如图 14 所示,流量在网络中流动,如下所示:
站点间 (SD-WAN) 流量使用叠加隧道在 MPLS 网络中传输。
直流流量使用本地分支,直接通过底层 MPLS 网络传输。

在这种情况下,数据中心可以位于 MPLS 网络上的其他地方,也许是一个 POP,如图 16 所示。在这种情况下,流量通常保持与上述相同。

作为此方案的另一种变体,数据中心向的流量可以使用叠加隧道,在中枢设备上进行分支,然后双倍返回数据中心,如图 16 所示。

此选项有一些缺点:
它使用更多的隧道带宽。
随着辐射站点的本地设备正在处理并封装更多流量,可能会增加延迟。
它会增加中心设备上的负载。
它会创建一个次优路径,使流量通过隧道流向中枢设备,只需加倍回程即可到达数据中心。
但是,它也有一些优势:
使用叠加隧道,数据中心向的流量可以利用 SLA 服务并动态选择最佳路径,从而提高这些应用程序的网络性能。
其他安全功能可以集中提供。
Migration to SD-WAN
在此用例中,企业客户有多个大型地点,并使用服务提供商现有的 MPLS 服务在站点之间提供全网状网络。客户希望迁移到 SD-WAN,实施可能是渐进式的。然而,始终保持站点之间的连接至关重要。
图 17 展示了正在进行迁移的场景。SD-WAN 功能已添加到站点 3 和站点 4 中,而其他站点尚未迁移。在每个支持 SD-WAN 的站点上,本地设备的面向 MPLS 的 WAN 接口均配置为支持隧道和本地分支流量。流量在网络中流动,如下所示:
支持 SD-WAN 的站点之间的流量可以使用叠加隧道。
支持 SD-WAN 的站点与传统站点之间的流量使用本地分支,并直接通过底层 MPLS 网络传输。

在这种情况下,本地分支是保持已迁移站点与旧站点之间的连接的关键。
Local breakout and NAT
当流量从租户 VRF 流向互联网时,通常必须使用 NAT 从租户的专用网络空间转换为互联网(公共)网络空间。
在分支站点上,本地设备可以使用 Auto-NAT 对所有本地分支流量自动执行源 NAT。在中枢站点,无法提供自动 NAT;但是,CSO UI 支持为这些本地设备手动创建 NAT 规则。
Local Breakout and DNS
将本地设备配置为 LAN 分段的 DHCP 服务器后,您可以为最终主机指定 DNS 服务器信息。对于已启用本地分支的站点,通常建议指定多个名称服务器:用于公司域名解析的内部服务器,以及用于面向互联网的本地分支流量的公共或 ISP 服务器。
网络安全
SD-WAN 架构的重要安全考虑因素之一是不仅要为静态数据提供安全性,还可以为动态数据提供安全性。数据安全性得到增强,允许对数据和 OAM 隧道使用多级 PKI。这允许 CSO 从 CA 服务器接收多级 CA 证书,将多个 CA 证书推送至 CPE 设备,在 CPE 设备上续订和撤销多个 CA 证书。
从 CSO 4.1 版开始,CSO 支持简单的证书注册协议 (SCEP)。这使得 CSO 能够:
充当 SCEP 服务器
充当 SCEP cllient
证书撤销
证书自动续订
将证书部署到 CPE/站点
管理 CPE(站点)上的证书
为 CA 服务器信息提供 GUI 支持
站点/CPE 证书续订
Microsoft CA/NDES 支持
每个站点/CPE 的代理证书
提供了一个后端 API,用于以编程方式访问 PKI 功能。
Data Plane
数据平面连接可配置为使用 IPsec 和基于 PKI 的身份验证。使用时,本地本地设备先对流量进行加密,然后通过网络将其传输到远程站点,并使用公共和私有密钥对处理身份验证。
Management and Control Plane
CSO 使用 SSH 连接控制台和 NETCONF 连接,连接到并配置本地设备。从 CSO 4.0 版开始,专用 OAM 叠加隧道有助于增强内部设备和 CSO 之间的安全端到端通信。通过 IPsec 加密和 PKI 身份验证的 OAM 隧道(如图 18 所示)使本地分支设备能够通过网络将管理、路由和日志记录流量安全地发送到提供商中心。然后,中枢将流量转发至 CSO。

有关详细信息,请参阅本指南前面的 安全和冗余 OAM 网络 部分。