网络运维
将 CSO 部署为本地部署时,了解网络的运行方式以及正在使用的协议会很有帮助。在使用云托管部署时,概念都是相同的,但细节和控制对订阅者来说是不可见的;它们是在云中安装 CSO 的团队的责任。
与大多数网络一样,Contrail SD-WAN 解决方案通常在两个平面上运行:
控制平面 – OAM 和路由流量
数据(转发)平面 - 用户流量
Control Plane Operation
Contrail SD-WAN 解决方案的控制平面以 CSO 平台为中心。具体来说:
CSO 的网络服务控制器 (NSC) 层使用 VRR 实现控制平面。
所有租户中的所有站点都与 VRR 建立 MP-IBGP 对等互连。
CSO 对所有租户使用单个专用 AS 编号,并带有用于租户分离的路由目标。
租户路由分离由 VRR 和使用 BGP 扩展社区的多租户中枢设备提供。
VRR 设计
所有 CSO 部署都包含一个或多个 VRR 实例,这些实例可为 SD-WAN 环境提供控制平面功能。 图 1 显示了一个常规示例,其中每个站点的本地设备都与 VRR 对等。
图 2 显示了 VRR 的 CLI 输出示例。
的 CLI 输出示例
控制平面弹性
CSO 3.3 及更高版本支持安装多个 VRR 以提供冗余和扩展。CSO 将 VRR 分成两个冗余组 (RG),并使单个虚拟 IP 地址对网络可见。作为站点配置的一部分,CSO 会在设备与每个 RG 中的 VRR 之间建立 BGP 对等会话。如果主 VRR 发生故障或连接断开,第二个 VRR 将继续接收和播发所连接站点的 LAN 路由,从而提供冗余。此设计如 图 3 所示。
路由分配和分离
Contrail SD-WAN 解决方案使用 Junos OS 虚拟路由和转发 (VRF) 实例以及 MP-BGP 路由目标,来提供租户路由分离并实现多租户。
以 MPLS VPN 环境为例,可以很好地说明这些概念。如 图 4 所示,系统为每个客户分配了一个唯一的路由目标值,客户 VPN 的所有站点都使用该路由目标值。当路由器播发客户的路由信息时,它会根据客户 VRF 发起播发的路由器附加相应的路由目标值。接收路由器使用附加的路由目标值来标识应将接收到的路由信息放入的客户 VRF。
MPLS VPN 中心辐射型环境使用路由目标的方式不同,如 图 5 所示。对于每个客户,每个分支 VRF 在发送路由信息时附加相同的路由目标值。接收路由器接受具有相同路由目标值的路由,并将其安装到集线器 VRF 中。相比之下,中枢 VRF 在发送路由信息时附加不同的路由目标值,接收路由器接受具有相同路由目标值的路由并将其安装到分支 VRF 中。
使用此设置后,只有中心 VRF 接受来自分支 VRF 的路由,并且只有分支 VRF 接受来自中心 VRF 的路由。使用此方法,分支站点只需要很少的路由信息(可能只是默认路由),因为它们只需要可访问中枢站点,从而保持路由表较小且无流失。
上面的中心辐射型示例提供了一个良好的基础,因为 Contrail SD-WAN 解决方案在将流量从一个站点转发到另一个站点时,或在将流量分流到本地互联网时,以相同的方式实现路由分配和分离。
图 6 显示了一个分支站点示例,其中分支设备配置了两个叠加隧道和本地分支,所有流量都流出同一个接口。每个流量路径都有自己的 VRF,并且会在分支站点和中枢站点适当分配路由目标,以确保正确的租户路由分离。
APBR 和 SLA 管理 - 控制平面
通过基于策略的高级路由 (APBR),您可以定义每个应用(组)的路由行为和路径选择。APBR 机制根据已知应用和用户定义的应用签名对会话进行分类,并使用策略意图为应用确定最佳可能路由。基于应用的动态路由可以根据应用定义的 SLA 参数来定义动态切换 WAN 链路的策略。
Real-Time Optimized - AppQoE
从版本 3.3.1 开始,CSO 支持应用体验质量 (AppQoE),这是一种数据平面级别的机制,可提供更好的可扩展性和更快的决策。AppQoE 与 APBR 协同工作,在设备级别发挥作用;也就是说,设备自己对可用的 WAN 链路执行 SLA 测量,然后将应用流量动态映射到最能满足应用 SLA 要求的路径。这一切都无需 CSO 控制器分发特定于 SLA 的路由即可完成。
使用 AppQoE,当发生 SLA 违规时,只有与报告 SLA 违规的应用对应的流量才会移动到备用链路;使用该链路的任何其他流量不受影响。
使用实时优化的 SLA 管理时,只需要默认的 VRF,如 图 7 所示。默认 VRF 跨所有链路使用 ECMP。每个 SLA 的下一跃点选择发生在数据路径中(在数据平面部分中介绍)。
在这种情况下,MPLS 标签仅用于标识租户。
当租户的 SD-WAN 模式设置为 实时优化时,将启用 AppQoE。这是 SD-WAN 部署的默认模式。
有关 AppQoE,请注意以下几点:
仅在 SRX 和 vSRX 虚拟防火墙设备上受支持。
两端必须使用相同的 Junos OS 版本和配置。
支持多宿主。
数据平面运维
本节讨论如何在中心辐射型拓扑中转发数据包。
当辐射站点的用户通过本地 CPE 设备发送流量,且数据包未在本地交换或直接发送到互联网时,它将通过隧道发送到中枢设备。来自客户 LAN 的此数据包首先封装在 MPLSoGRE 报头中,其中 GRE 目标作为中枢设备的 WAN 链路之一。MPLSoGRE 报头中的 MPLS 标签标识用于在中枢站点转发数据包的 VRF。生成的数据包标头如 图 8 所示。
如果分支站点和中心站点之间的隧道配置为使用 IPsec,则 MPLSoGRE 数据包将进一步加密并封装在使用隧道模式的 IPsec 报头中。生成的数据包标头如 图 9 所示。
在集线器上,首先解密 IPsec 标头。生成的数据包的 MPLSoGRE 报头用于终止 GRE 隧道,并在相应的 VRF 中执行查找(使用 MPLS 标签进行标识)。然后,根据 VRF 中的路由查找,数据包会转发到另一个辐射站点或从 SD-WAN 环境之外。如果转发到另一个分支,则中枢设备会如上所述封装数据包。
Design Options
图 10 说明了使用上述数据包标头通常如何部署隧道。鉴于需要通过公共网络进行安全的数据包传输,GREoIPSec 隧道通常通过互联网路径使用。GRE 隧道通常用于 MPLS 路径,但也可以根据需要使用 GREoIPSec 选项。
APBR and SLA Management - Data Plane
如前所述,租户可以为应用流量选择一种 SD-WAN SLA 管理模式:
实时优化 – 使用 AppQoE 进行设备级 SLA 管理
AppQoE 是一种数据平面级机制,可提供更好的可扩展性和更快的决策。使用 AppQoE,链路切换发生在设备数据路径中的应用级别;设备本身跨可用的 WAN 链路执行 SLA 测量,而无需 CSO 控制器。
使用两种类型的内联探测进行链路监控:
无源探头
随应用流量同行的内联探针
模拟应用程序流的突发性
启用对应用会话的 RTT、抖动、数据包丢失的监控
用于监控当前使用的路径是否符合 SLA,检测 SLA 违规
有源探针
定期探测(基于配置),收集所有潜在路径上的 SLA 数据
用于确定流量的原始最佳路径
用于监控备用路径
当租户的 SD-WAN 模式设置为 实时优化时,将启用 AppQoE。
Tunnel Liveliness
为避免黑洞流量,会在叠加网络中强制执行适当的存活度检查。Contrail SD-WAN 解决方案使用两种机制来确保活跃性:
IPsec 失效对等体检测 (DPD),使用它
GRE 激活
网状标签和动态网状 VPN
正如在部署模型讨论中提到的,动态网格是瞻博网络在 CSO 内实现的全网状 VPN,有助于节省资源。本节介绍网状标记及其启用的动态网状 VPN 的作。
Mesh Tags
网状标签是在 CSO 中的加载过程中应用于 CPE 和集线器设备的 WAN 接口的基于文本的标签。CSO 附带两个默认网格标记:Internet 和 MPLS。您可以使用 CSO 管理门户创建自己的网格标签。只能在共享相同网格标记的 WAN 接口之间形成按需或动态 VPN。
以下讨论解释了网格标签的工作原理以及它们适用的一些用例。
如上所述,每个站点的 CPE 设备的每个 WAN 接口都会应用一个网状标签。在 NFX150 和 NFX250 等辐射设备以及大多数 SRX 系列防火墙上,每个 WAN 接口只能应用一个网状标记。在提供商中心和企业中心设备(如 SRX4x00 系列设备)上,由于设备的 VPN 功能增强,可以将多个网状标记应用于每个接口。
以下列表有助于说明网状标签和动态网状 VPN 发挥作用的各种用例。
Connecting Different Underlay Links
Site-to-Site Tunnels Based on Capacity
Geo-Based Meshing
With Dual CPE
Dynamic Mesh Load Balancing
Redundant Link
Dynamic Mesh VPNs
图 11 显示了三个分支站点之间的动态网状 VPN 拓扑,并描述了站点到站点 VPN 的建立方式。
|
1
—
使用 ZTP 调配的站点和到中枢站点的隧道。站点到站点流量通过站点到中心数据隧道。 |
4
—
CSO 在站点对之间按需配置站点到站点隧道。 |
|
阿拉伯数字
—
CSO 从设备接收包含流量速率详细信息的系统日志消息。 |
5
—
站点到站点流量现在切换到新形成的站点到站点隧道。 |
|
3
—
CSO 认识到凤凰城站点 1 和休斯顿站点 2 之间的流量超过了 KPI 阈值。 |
CSO 还使用流量阈值和系统日志消息来控制和自动执行隧道删除。
互联网分支
虽然发往互联网的流量可以通过叠加隧道和中央站点发送,但这些隧道通常用于支持站点到站点流量。对于非 SD-WAN 目标,本地分支提供了将流量从本地本地设备直接发送到互联网的选项。本地分支允许租户在每个站点上以最佳方式使用其网络带宽,并避免产生将所有流量传输到中央站点的成本。
本地分离是 SD-WAN 部署中的一项重要功能,因为如今许多企业都在使用托管在企业网络之外的 SaaS 服务。由于这些 SaaS 应用程序中的大多数都使用 SSL 作为传输,并且还支持与企业 AAA 系统进行单点登录,因此尽管直接通过 Internet 发送流量,但安全问题已得到解决。
WAN Interface Options
本地设备的 WAN(MPLS 和互联网)接口可以任意组合支持隧道和本地分支流量:
仅隧道流量
隧道和本地分支流量
仅本地分支流量
Design Options
根据设计要求,有多种方式可用于实现本地分线。
Breakout at Spoke
辐射站点的本地分支允许用户直接访问互联网,而无需通过叠加网络向中枢发送流量,从而有助于节省隧道带宽。此选项可在 Internet 或 MPLS WAN 链路上实施。 图 12 说明了这一概念。
的本地分支
使用本地分支时,可以指定基于接口或基于池的 NAT。
Breakout at Provider Hub (Central Breakout)
提供商中心站点的中央分支可实现中心辐射型部署,其中分支站点将传往互联网的流量通过叠加网络转发到提供商中心设备,然后提供商中心设备将流量转发到互联网,如 图 13 所示。
的本地分支
中心站点的中央分支启用方式与分支站点不同。它可以通过第 2 阶段模板在 CSO 中手动配置。
还可以通过 Enterprise Hub 站点向分支站点提供中央分支线。在此方案中,企业中心可以使用底层网络进行转发,或者可以从数据中心部门接收默认路由并将其传播到分支。
当通过默认路由方法在提供商中心和企业中心同时提供中央分支时,使用 BGP 本地优先级优先选择来自企业中心的默认路由。
Cloud Breakout
面向 Internet 的流量的另一个分支选项是云分支,可用于分支站点和企业中心站点。启用云分支时,分支站点或企业中心站点会将传向 Internet 的流量转发到 Zscaler,以便在将其发送到 Internet 之前进行进一步的与安全相关的处理。Zscaler 帐户必须处于活动状态且可访问,然后才能通过分支发送流量。
Usage Notes for Cloud Breakout
云突破支持使用用于 WAN 链路的公共 IP 地址的通用路由封装 (GRE) 隧道。
使用 GRE 隧道时,CPE 设备不能位于 NAT 后面。
配置云分支设置时,可以指定 IPsec 第 1 阶段参数、第 2 阶段参数和域名。
您可以为云分支节点指定 IP 地址或主机名验证。
CSO 会自动填充 FQDN、预共享密钥和 WAN 链路信息,并提供更改自动填充值的选项。
CSO 支持 SD-WAN 分支站点的 WAN 链路与云分支节点之间的高可用性。
WAN 链路节点可以配置为主动/被动或主动/主动。
SD-WAN 分支站点和云分支节点之间最多可以定义两个 WAN 链路。
Order of Preference for Scenarios with Multiple Breakout Options
如果分支站点的 CPE 有多个分支选项可用,且未指定分支策略,则分支的优先顺序为:
数据中心部门/企业中心
本地分支/云分支
提供商中心(中部)
如果企业中心站点有多个分支选项可用,则分支流量的优先顺序为:
不使用 SD-WAN 策略:
数据中心部门
枢纽
借助 SD-WAN 策略:
本地分支/云分支
数据中心部门
提供商中心(中部)
Use Cases for Local Breakout
本地分支的一些用例如下所述。
Service Provider Data Center
在此用例中,企业客户使用服务提供商的 SD-WAN 服务实现站点到站点互连。客户还可以使用服务提供商数据中心外托管的增值服务。
在分支站点上,本地设备的面向 MPLS 的 WAN 接口配置为支持隧道和本地分支流量。如 图 14 所示,流量按如下方式流经网络:
站点间 (SD-WAN) 流量使用叠加隧道在 MPLS 网络中传输。
传往 DC 的流量使用本地分支并直接通过底层 MPLS 网络传输。
的分支到数据中心的本地分支
作为此方案的变体,数据中心可以位于 MPLS 网络的其他位置,可能位于 POP 处,如 图 16 所示。在这种情况量大致与上述相同。
的数据中心的本地分支
作为此方案的另一种变体,源自 DC 的流量可以使用叠加隧道,在中枢设备上分线,然后加倍返回 DC,如 图 16 所示。
的 Hub 到 DC 的本地分支
此选项有一些缺点:
它会使用更多的隧道带宽。
当分支站点的本地设备处理和封装更多流量时,这可能会增加延迟。
这会增加集线器设备上的负载。
它会创建一条次优路径,导致流量通过隧道流向中枢设备,但必须加倍返回才能到达数据中心。
但是,它也有一些优点:
通过使用叠加隧道,传往数据中心的流量可以利用 SLA 服务并动态选择最佳路径,从而提高这些应用的网络性能。
可以集中提供其他安全功能。
Migration to SD-WAN
在此用例中,企业客户拥有多个大型站点,并使用服务提供商的现有 MPLS 服务在站点之间提供完整网格。客户希望迁移到 SD-WAN,并且实施很可能是渐进式的。然而,始终保持站点之间的连接至关重要。
图 17 展示了正在进行迁移的场景。站点 3 和站点 4 中已添加 SD-WAN 功能,而其他站点尚未迁移。在每个启用 SD-WAN 的站点上,本地设备面向 MPLS 的 WAN 接口都配置为支持隧道和本地分支流量。流量按如下方式流经网络:
支持 SD-WAN 的站点之间的流量可以使用叠加隧道。
启用 SD-WAN 的站点与旧站点之间的流量使用本地分支并直接通过底层 MPLS 网络传输。
的本地分支
在这种情况下,本地分支是在迁移站点和旧站点之间保持连接的关键。
Local breakout and NAT
当流量从租户 VRF 流向 Internet 时,通常必须使用 NAT 从租户的专用网络空间转换为 Internet(公共)网络空间。
在分支站点,本地设备可以使用自动 NAT 在所有本地分支流量上自动执行源 NAT。在中心站点,自动 NAT 不可用;但是,CSO UI 支持手动为这些本地设备创建 NAT 规则。
Local Breakout and DNS
将本地设备配置为 LAN 分段的 DHCP 服务器,可以指定终端主机的 DNS 服务器信息。对于启用了本地分支的站点,通常建议指定多个名称服务器:用于企业域名解析的内部服务器,以及用于向 Internet 发送的本地分支流量的公共或 ISP 服务器。
网络安全
SD-WAN 架构的重要安全考虑因素之一是为静态数据和动态数据提供安全性。数据安全性已得到增强,允许对数据和 OAM 隧道使用多级 PKI。这允许 CSO 从 CA 服务器接收多级 CA 证书,将多个 CA 证书推送到 CPE 设备,续订和撤消 CPE 设备上的多个 CA 证书。
从 CSO 4.1 版开始,CSO 支持简单证书注册协议 (SCEP)。这使 CSO 能够:
充当 SCEP 服务器
充当 SCEP 负责人
证书撤消
证书自动续期
将证书部署到 CPE/站点
管理 CPE 上的证书(站点)
为 CA 服务器信息提供 GUI 支持
站点/CPE 证书续订
Microsoft CA/NDES 支持
每个站点/CPE 的代理证书
提供了后端 API,用于以编程方式访问 PKI 功能。
Data Plane
数据平面连接可配置为使用具有基于 PKI 身份验证的 IPsec。使用时,本地设备会先对流量进行加密,然后通过网络将流量传输到远程站点,并使用公钥-私钥对处理身份验证。
Management and Control Plane
CSO 使用 SSH 连接到并配置本地设备,以便进行控制台和 NETCONF 连接。从 CSO 4.0 版开始,专用 OAM 叠加隧道有助于增强本地设备与 CSO 之间的安全端到端通信。图 18 所示的 IPsec 加密和 PKI 验证的 OAM 隧道使本地辐射设备能够通过网络安全地将管理、路由和记录流量发送到提供商中枢。然后,中枢将流量转发给 CSO。
有关详细信息,请参阅本指南前面的 “安全和冗余 OAM 网络 ”部分。