Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

如何升级四成员 QFX 系列 VCF

关于此网络配置示例

此网络配置示例 (NCE) 说明当不间断软件升级 (NSSU) 进程不可用或不受欢迎时,如何升级四成员 QFX 系列虚拟机箱交换矩阵 (VCF)。此过程可将服务中断降至最低,对数据中心工作负载的影响也微乎其微。

配置示例

要求

此示例如下:

  • 双主干和双叶 VCF,由运行 Junos OS 14.1X53-D47.6 版的 QFX5100 交换机组成

  • 使用 VCF 最佳实践配置的预配置模式 VCF,例如虚拟机箱平滑路由引擎切换 (GRES) 和不间断桥接 (NSB)

  • 仅限 2 层 VCF

  • MX 系列路由器作为上行链路设备

  • 串行控制台访问(必需)

  • Junos OS 18.4R1.8 版

只要 VCF 中的所有设备都运行同一版本,就可以使用此方法在任何版本之间进行升级。

您可以对以下 QFX 系列 VCF 使用此过程:

  • 四成员 QFX5100 VCF,仅由 QFX5100 组成

  • 四成员 QFX5110 VCF,包括:

    • 仅 QFX5110,或

    • 两个 QFX5110 作为主干设备,两个处于混合模式的 QFX5100 作为叶设备,或

    • 两个 QFX5110 作为主干设备,一个 QFX5100 和一个 QFX5110 处于混合模式作为叶设备

上行链路设备可以是具有路由功能的任何设备。

概述

有时,使用 NSSU 将 VCF 升级到另一个软件版本是不可能或不希望的。本文档展示了一种在尽可能缩短停机时间的情况下升级四成员 QFX 系列 VCF 的替代方法。此方法不是 NSSU 的替代方法,而是一种微创方法,必须在必要时实施,并按照以下步骤进行适当的规划。

要升级 VCF,首先将其划分为两个 VCF,每个 VCF 都包含一个路由引擎和一个线卡。通过一个 VCF 重新路由流量后,升级另一对设备。在升级剩余设备对之前,通过升级的 VCF 重新路由流量。通过将一个设备一次重新连接到新的双成员 VCF 来还原四成员 VCF。

在此过程中,您可能会看到警报,包括 SNMP 陷阱和系统日志消息。

拓扑

图 1 展示了 VCF 的拓扑结构。成员 1 和 0 连接到上行链路设备,而线卡连接到服务器。

图 1:VCF Topology of the VCF 拓扑

配置

为升级做好准备

逐步过程
  1. 使用 root 用户或其他具有管理权限的登录用户登录设备。

  2. 开始升级之前,检查 VCF 的状态。记下设备的序列号、成员编号和相关角色。

  3. 检查虚拟机箱端口 (VCP) 并创建拓扑图供参考。 图 1 显示了此示例中的 VCF 拓扑。

  4. 检查所有四个成员是否都存在。检查每台设备上运行的 Junos OS 映像。每个设备都必须运行相同的 Junos OS 版本。如果存在版本不匹配,则设备应显示为非活动。

  5. 使用 FTP 将新的 Junos OS 映像复制到主路由引擎。然后将新映像从主路由引擎复制到其他 VCF 成员。有关如何配置 FTP,请参阅 远程访问概述

    图 2 展示了新 Junos OS 映像如何在成员之间分布。

    图 2:将 Junos OS 映像复制到 VCF 成员 Copy Junos OS Image to VCF members

    要从主路由引擎上的 /var/tmp 目录复制到成员 3(也称为 fpc 3 的 /var/tmp)中,请使用以下语句:

    注意:

    复制图像可能需要一点时间,所以请耐心。

    为其他成员做同样的事情。FPC 编号与成员编号相同。

  6. 通过 VCF 主路由引擎访问每个成员,并确认该文件已复制到每个成员。例如,要访问成员 3:

    接下来,检查新的 Junos OS 映像的此 VCF 成员上的 /var/tmp 目录。

    完成后,使用 exit 返回主设备。

    在 VCF 中的每台设备上重复图像检查。

  7. 将 VCF 分成两半时,将临时形成两个虚拟机箱,每个虚拟机箱有两个成员。每当组成只有两个成员的虚拟机箱时,我们建议禁用拆分检测。如果未禁用拆分检测,则主设备可能会在此示例稍后部分与备份路由引擎断开连接时担任线卡角色并停止其与备份路由引擎的连接。

    在主设备上禁用拆分检测。

  8. 要在此过程中检查是否有任何流量丢失,请在上行链路 MX 系列路由器上启动从服务器到 IRB 192.168.100.1 的持续 ping。

通过成员 1 和成员 3 重新路由流量

逐步过程
  1. 使用上图,标识需要在成员 0 和 2 上禁用的链路聚合控制协议 (LACP) 成员接口和 VCP,以便将其与 VCF 的其余部分隔离。您将禁用的 VCP 是成员 0 上的端口 2 和成员 2 上的端口 53。

    对主路由引擎(成员 1)使用以下命令确定相关接口的名称。您将禁用指向上行链路设备和服务器的 LACP 成员接口。在这种情况下,et-0/0/23.0 是成员 0 上游接口,xe-2/0/46.0 是成员 2 下游接口。

  2. 访问主设备(成员 1)控制台,并请执行以下操作:

    禁用成员 0 上的上行链路设备的接口。

    禁用从成员 2 到服务器的接口。

    提交配置,使其生效。

  3. 成员 1:

    删除从成员 0 到成员 3 的 VCP。

    请参阅 升级准备 中的步骤 3 和拓扑图,以确定需要禁用哪些 VCP。在表中的 fpc0 下,在接口类型或 PIC/端口列中标识到邻接方 ID 3 的 VCP。在这种情况下,请禁用识别为 PIC/端口 0/2 的 VCP,即 vcp-255/0/2。

    将 VCP 从成员 2 删除到成员 1。

  4. 检查成员是否已从 VCF 中移除并标记为 NotPrsnt

升级成员 0 和成员 2

逐步过程
  1. 访问成员 0 和成员 2 的控制台。输入以下命令,将成员升级到复制到设备上的 Junos OS 映像。

  2. 升级每个隔离成员后,验证隔离成员(成员 0 和成员 2)是否存在。

    由于成员 0 已配置为备份路由引擎,因此新 VCF 会自动形成,因此当与原始主设备断开连接时,它接管了主路由引擎的角色。成员 2 已在线卡角色中配置。

    上面的输出显示链接设备的 VCP 接口。如果输出在最后一列中未显示 VCP 接口,请完成步骤 3。

  3. 如果上一步中的输出未显示成员 0 和成员 2 已连接,并且它们是新 VCF 的成员,请配置它们之间的 VCP 链路。

    在成员 0 上,启用 VCP 10。

    在成员 2 上,启用 VCP 52。

  4. 确认升级成功。

通过成员 0 和成员 2 重新路由流量

逐步过程
  1. 同时禁用旧 VCF 对(成员 1 和成员 3)上的上行链路和面向服务器的端口,并在从升级后的成员 0 和成员 2 形成的新 VCF 中启用服务器和上行链路接口。这会通过新的 VCF 重定向流量。

    在两台设备上 同时 提交配置非常重要,以便维护主机和上行链路 MX 系列路由器上的 LACP 状态。您可以使用脚本来执行此操作,例如使用 Ansible 工具。

    如果不同时提交配置,只要您禁用旧 VCF 上的端口并启用新 VCF 上的接口,流量就会被丢弃,服务将受到影响。

    在成员 1 上,从作为四成员 VCF 的主要设备中移除剩余配置。

    禁用成员 1 上的上行链路和面向服务器的端口。

    在成员 0 上启用上行链路和面向服务器的端口。

  2. 在成员 1 和成员 0 上同时运行 commit

  3. 检查从服务器到上行链路 MX 系列路由器上的 IRB 192.168.100.1 的持续 ping 是否仍然运行成功。这可以确认流量路径切换成功。

升级成员 1 和成员 3

逐步过程
  1. 检查旧 VCF 是否包含一个主设备和一个线卡角色设备。

  2. 通过删除成员 1 和成员 3 之间的 VCP,中断旧 VCF。由于成员 1 是主要设备,因此可以在成员 1 上运行这些命令。

    要从成员 3 删除 VCP 到成员 1:

    要从成员 1 删除 VCP 到成员 3:

    验证每台设备上的这一操作是否成功。

    成员 1:

    访问成员 3 控制台:

  3. 将成员 3 升级到 Junos OS 18.4R1 版。

    确认升级成功。

  4. 将成员 1 升级到 Junos OS 18.4R1 版。

    确认升级成功。

恢复四成员 VCF

逐步过程
  1. 通过在成员 3 上启用 VCP 49,在成员 0 上启用 VCP 2,将成员 3 添加到新的 VCF。 图 3 显示了启用这些端口后新 VCF 的状态。

    图 3:将成员 3 添加到新的 VCF Add Member 3 to the New VCF

    在成员 3 上,启用面向成员 0 的 VCP:

    在成员 0 上:

    • 启用面向成员 3 的 VCP:

    • 验证成员 0 上是否启用了 vcp-255/0/2,成员 3 上是否启用了 vcp-255/0/49:

  2. 由于成员 1 是原始 VCF 的主要路由引擎,因此会为成员 0、2 和 3 提供一些剩余配置。当您将 VCF 添加到新的 VCF 时,这些配置可能会干扰 VCF,特别是当成员 1 抢占成员 0 作为新 VCF 的主设备时。

    在成员 0(新 VCF 的主设备)上,使用以下命令为成员 3 重新启用面向服务器的接口,防止成员 1 意外关闭。

  3. 在成员 1 上,禁用面向上行链路的接口 et-1/0/23。流量从相邻的新 VCF 主设备传递到上行链路 MX 系列路由器。

    注意:

    如果成员 1 在下一步中抢占成员 0 作为新 VCF 的主设备,则 set interfaces et-1/0/23 disable 语句将转发给新的 VCF。这可能会导致流量中断,在这种情况下,需要立即删除此语句。

  4. 要向新的 VCF 中添加成员 1,请将 VCP 链路从成员 1 还原到成员 2 和成员 3,如图 4 所示。

    图 4:将成员 1 添加到新的 VCF Add Member 1 to the New VCF

    成员 1:

    • 设置连接到成员 3 的 VCP。

    • 设置连接到成员 2 的 VCP。

    在成员 0 上,新的 VCF 主设备:

    • 在连接到成员 1 的成员 2 上设置 VCP。

    • 在连接到成员 1 的成员 3 上设置 VCP。

  5. 在大多数情况下,新 VCF 主路由引擎的配置会应用于新加入的备份路由引擎。有时,新加入的备份路由引擎(即原始的 VCF 主路由引擎)可能会抢占先机,从较新的 VCF 主设备接管主要角色。检查是否已发生这种情况。

    成员 1 已接管主要角色。这可能会中断流量。如果您观察到这一点,请快速启用下一步中所示的上行链路。

  6. 在成员 1 上,在新 VCF 上启用面向上行链路的接口 et-1/0/23。

    您现在已形成一个四成员 VCF,如图 5 所示。

    图 5:还原四成员 VCF Restore the Four-Member VCF
  7. 当成员 1 加入新 VCF 时,LACP 状态重置,预计流量中断时间不到一分钟。监控来自服务器的持续 ping。

  8. 由于成员 1 重新担任主要角色,因此检查上行链路和面向服务器的接口是否未因剩余配置而自动禁用。对成员 1 运行以下命令,并检查 LACP 子接口是否处于启动状态并重新处于状态 collecting distributing

  9. 在成员 1 上,即 VCF 的新主设备,确认所有 VCF 成员都运行预期的 Junos OS 版本。

  10. 在持续 ping 上,验证来自服务器的流量是否正常通过 VCF。预计停机时间为 40-50 秒。

    流量正常流经 VCF。您的四成员 VCF 已升级并正常运行。

结论

此过程概述了在 NSSU 不可用或不可取的情况下升级整个 VCF 且对数据中心工作负载的影响微乎其微的推荐方法之一。