Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

使用不中断服务的软件升级升级机箱群集

使用 功能浏览器 确认平台和版本对特定功能的支持。

查看 特定于平台的不中断服务的软件升级行为 部分,了解与您的平台相关的说明。

不中断服务的软件升级 (ISSU) 支持从一个 Junos OS 版本升级到更高版本的 Junos OS 版本,同时尽可能缩短停机时间。有关更多信息,请参阅以下主题:

了解机箱群集的 ISSU

不中断服务的软件升级 (ISSU) 支持从一个 Junos OS 版本到更高版本的 Junos OS 软件升级,停机时间很少或根本没有停机时间。仅当设备在机箱群集模式下运行时,才会执行 ISSU。

机箱群集 ISSU 功能使群集中的两台设备都能从受支持的 Junos OS 版本升级,同时将流量中断降至最低,并且不会中断服务。

ISSU 提供以下优势:

  • 消除软件映像升级期间的网络停机时间

  • 降低运维成本,同时提供更高的服务级别

  • 允许快速实施新功能

ISSU 具有以下限制:

  • ISSU 仅适用于 Junos OS 10.4R4 或更高版本。

  • ISSU 不支持软件降级。

  • 如果从仅支持 IPv4 的 Junos OS 版本升级到同时支持 IPv4 和 IPv6 的版本,则 IPv4 流量将在升级过程中继续工作。如果从同时支持 IPv4 和 IPv6 的 Junos OS 版本升级到同时支持 IPv4 和 IPv6 的版本,则 IPv4 和 IPv6 流量将在升级过程中继续工作。Junos OS 10.2 及更高版本支持对 IPv6 流量进行基于流的处理。

  • 在 ISSU 期间,您不能使任何 PIC 联机。不能执行提交、重新启动或停止等作。

  • 在 ISSU 期间,交换矩阵监控、控制链路恢复和 RGX 抢占等作将被暂停。

  • 在 ISSU 期间,您无法提交任何配置。

有关 ISSU 支持状态的详细信息,请参阅知识库文章 KB17946

在对机箱群集中的设备进行 ISSU 期间,将发生以下过程。当 RG-0 为节点 0(主节点)时,下面给出的序列适用。请注意,您必须从 RG-0 主节点启动 ISSU。如果在节点 1(RG-0 辅助节点)上启动升级,则会显示一条错误消息。

  1. 在机箱群集 ISSU 开始时,系统会自动对启动 ISSU 的节点上不属于主节点的所有 RG-1+ 冗余组进行故障转移。此作可确保所有冗余组仅在 RG-0 主节点上处于活动状态。

    从 Junos OS 12.1 或更高版本开始,可以使用所有 RG-1+ 冗余组的自动故障切换。如果您使用的是 Junos OS 11.4 或更低版本,则在启动 ISSU 之前,请确保所有冗余组仅在 RG-0 主节点上全部处于活动状态。

    系统对所有 RG-1+ 冗余组进行故障切换后,会设置手动故障切换位并将所有 RG-1+ 主节点优先级更改为 255,而不管冗余组是否故障转移到 RG-0 主节点。

  2. 主节点(节点 0)验证设备配置,以确保可以使用新的软件版本进行提交。检查两个节点上 /var 文件系统的磁盘空间可用性、不支持的配置和不支持的物理接口卡 (PIC)。

    如果任一路由引擎上的可用磁盘空间不足,ISSU 进程将失败并返回错误消息。但是,不受支持的 PIC 不会阻止 ISSU。软件将发出警告,指示这些 PIC 将在升级过程中重新启动。同样,不受支持的协议配置也不会阻止 ISSU。但是,该软件会发出警告,指出升级期间协议可能会发生数据包丢失。

  3. 验证成功后,内核状态同步守护程序 (ksyncd) 会将辅助节点(节点 1)上的内核与节点 0 同步。

  4. 节点 1 已使用新的软件映像进行升级。在升级之前,节点 1 从节点 0 获取配置文件并验证配置,以确保可以使用新的软件版本提交该文件。升级后,会与节点 0 重新同步。

  5. 节点 0 上的机箱群集进程 (chassisd) 为 lSSU 准备其他软件进程。当所有进程都准备就绪后,chassisd 会向设备中安装的 PIC 发送一条消息。

  6. 每个灵活 PIC 集中器 (FPC) 上的数据包转发引擎保存其状态并从节点 1 下载新的软件映像。接下来,每个数据包转发引擎向机箱发送一条消息(unified-ISSU 就绪)。

  7. 从数据包转发引擎接收到消息(unified-ISSU 就绪)后,机箱会向数据包转发引擎所在的 FPC 发送重新启动消息。FPC 将使用新的软件映像重新启动。FPC 重新启动后,数据包转发引擎将恢复 FPC 状态,并与运行新软件的节点 1 建立高速内部链路。机箱也会使用节点 0 重新建立。

  8. 所有数据包转发引擎使用节点 0 上的机箱发送 就绪 消息后,即可为节点切换做好其他软件进程准备。此时,系统已准备好进行切换。

  9. 节点切换发生,节点 1 成为新的主节点(迄今为止的辅助节点 1)。

  10. 新的辅助节点(迄今为止的主节点 0)现在已升级到新的软件映像。

当两个节点都成功升级时,ISSU 即告完成。

将不支持加密的版本群集升级到支持加密的版本时,请将第一个节点升级到新版本。如果不配置和启用加密,两个不同版本的节点仍然可以相互通信,并且不会中断服务。升级第一个节点后,将第二个节点升级到新版本。用户可以在完成升级后决定是否开启加密功能。在降级到不支持加密的版本之前,必须停用加密。这可确保启用加密的版本节点和降级节点之间的通信不会中断,因为两者都不再加密。

注意:

路由引擎和数据包转发引擎中的策略必须同步,才能进行配置。当策略配置被修改且策略不同步时,系统将显示错误消息。

解决方法是,如果在升级后发现安全策略不同步,则必须使用 request security policies resync 命令同步路由引擎和数据包转发引擎中的安全策略配置。

ISSU 系统要求

您可以使用 ISSU 从支持 ISSU 的软件版本升级到更高版本。

要执行 ISSU,您的设备必须运行支持特定平台上的 ISSU 的 Junos OS 版本。有关平台支持,请参阅 表 1

表 1:ISSU 平台支持

装置

Junos OS 版本

SRX5800和SRX5600

10.4R4 或更高版本

SRX5400

12.1X46-D20 或更高版本

SRX1500

15.1X49-D70 或更高版本

SRX1600和SRX2300

23.4R1 或更高版本

SRX4100和SRX4200

15.1X49-D80 或更高版本

SRX4300

24.2R1 或更高版本

SRX4600

17.4R1 或更高版本

有关 ISSU 支持和限制的更多详细信息,请参阅 SRX 系列设备上的 ISSU/ICU 升级限制

请注意与 ISSU 相关的以下限制:

  • 如果指定安装的 Junos OS 版本早于设备上当前运行的版本,则 ISSU 进程将终止。

  • 如果指定的升级与当前配置、支持的组件等冲突,则 ISSU 进程将终止。

  • ISSU 不支持使用 Junos OS SDK 开发的扩展应用包。

  • ISSU 不支持所有受支持的 SRX 系列防火墙进行版本降级。

  • ISSU 偶尔会在 CPU 负载过重的情况下出现故障。

要从支持 ISSU 的版本降级到早期版本(无论是否支持 ISSU),请使用命令 request system software add 。与使用 ISSU 流程升级不同,使用 request system software add 命令进行的降级可能会导致网络中断和数据丢失。

强烈建议您在以下条件下执行 ISSU:

  • 当主节点和辅助节点都正常运行时

  • 在系统维护期间

  • 在尽可能低的流量时段

  • 当路由引擎 CPU 使用率低于 40% 时

如果不支持或不推荐 ISSU,同时必须将系统升级期间的停机时间降至最低,则可以使用最小停机时间过程,请参阅知识库文章KB17947

使用 ISSU 升级机箱群集中的两家设备

在开始 ISSU 升级这两台设备之前,请注意以下准则:

  • 确保满足以下 ISSU 预检查要求:

    • 所有冗余组优先级均大于 0

    • 所有冗余组在状态中要么是主要的,要么是次要的

    • /var/tmp 中存在足够的(图像大小的两倍)可用空间

    • 5 秒内 CPU 使用率低于 80%

    如果未满足预检查要求,ISSU 将在开始时终止。

  • 使用 request system snapshot 每个路由引擎上的命令备份软件,将系统软件备份到设备的硬盘。

  • 如果您使用的是 Junos OS 11.4 或更低版本,请在启动 ISSU 之前,请为所有冗余组设置故障切换,以便它们仅在一个节点(主节点)上处于活动状态。请参阅 启动机箱群集手动冗余组故障切换

    如果您使用的是 Junos OS 12.1 或更高版本,Junos OS 会自动将所有 RG 故障转移到 RG0 主节点。

  • 我们建议您在启动 ISSU 之前为路由协议启用平滑重启。

在所有受支持的 SRX 系列防火墙上, 第一个建议的 ISSU 版本是 Junos OS 10.4R4 版。

机箱群集 ISSU 功能使群集中的两台设备都能从受支持的 Junos OS 版本升级,其流量影响类似于冗余组故障切换。

要从路由引擎 2 上的 CLI 执行 ISSU,请执行以下作:

  1. 从 瞻博网络 支持网站下载软件包: https://www.juniper.net/support/downloads/
  2. 复制群集主节点上的包。建议将软件包复制到 /var/tmp 目录,该目录是硬盘上的一个大文件系统。请注意,启动 ISSU 的节点必须具有软件映像。

    user@host>file copy ftp://username:prompt@ftp.hostname.net/filename /var/tmp/filename

  3. 通过在主节点上发出 show version 命令来验证两个节点上运行的当前软件版本。
  4. 输入以下命令,从所有冗余组的主节点启动 ISSU:

    等待两个节点完成升级(之后,您将注销设备)。

  5. 等待几分钟,然后再次登录到设备。使用 show version 命令验证群集中的两台设备是否正在运行新的 Junos OS 版本。
  6. 验证所有策略、区域、冗余组和其他实时对象 (RTO) 是否都恢复到正确的状态。
  7. 发出 request chassis cluster failover node node-number redundancy-group group-number 命令,使节点 0 再次成为主节点。

如果希望冗余组在不中断服务的软件升级 (ISSU) 后自动返回到节点 0 作为主节点,则必须设置冗余组优先级,使节点 0 成为主节点,并启用该 preempt 选项。请注意,此方法适用于除冗余组 0 之外的所有冗余组。必须手动设置冗余组 0 的故障转移。

要设置冗余组优先级并启用该 preempt 选项,请参阅 示例:配置机箱群集冗余组

要手动设置冗余组的故障切换,请参阅 启动机箱群集手动冗余组故障切换

在升级期间,两台设备都可能会遇到冗余组故障切换,但流量不会中断。在开始升级之前,每个设备都会验证软件包并检查版本兼容性。如果系统发现新的软件包版本与当前安装的版本不兼容,设备会拒绝升级或提示您采取纠正措施。有时某个功能不兼容,在这种情况下,升级软件会提示您终止升级或关闭该功能,然后再开始升级。

如果要将 SRX 系列防火墙作为独立设备重新加以作,或者要从机箱群集中移除节点,请确保已在两个节点上终止 ISSU 过程(以防启动 ISSU 过程)

要在带有路由引擎 3 的 SRX5K 设备以及 SRX1600、SRX2300 和 SRX4300 设备上启动 ISSU 进程:

  1. 执行以下命令,启动 ISSU:

ISSU 后回滚机箱群集中的设备

如果 ISSU 无法完成,且群集中只有一台设备升级,则可以通过在升级后的设备上发出以下命令之一,单独回滚到升级后的设备上之前的配置:

  • request chassis cluster in-service-upgrade abort

  • request system software rollback node node-id reboot

  • request system reboot

在 ISSU 后启用机箱群集自动节点故障恢复

如果希望冗余组在不中断服务的软件升级 (ISSU) 后自动返回到节点 0 作为主节点,则必须设置冗余组优先级,使节点 0 成为主节点,并启用该 preempt 选项。请注意,此方法适用于除冗余组 0 之外的所有冗余组。必须手动为冗余组 0 设置故障转移。要设置冗余组优先级并启用该 preempt 选项,请参阅 示例:配置机箱群集冗余组。要手动设置冗余组的故障切换,请参阅 启动机箱群集手动冗余组故障切换

要升级节点 0 并使其在机箱群集中可用,请手动重新启动节点 0。节点 0 不会自动重新启动。

用于对 ISSU 相关问题进行故障排除的日志错误消息

ISSU 升级过程中可能会出现以下问题。您可以使用日志中的详细信息来识别错误。有关特定系统日志消息的详细信息,请参阅 系统日志浏览器

机箱进程错误

问题

描述

与机箱相关的错误。

溶液

使用错误消息了解与机箱相关的问题。

ISSU 启动时,系统会向机箱发送请求,以从机箱角度检查是否存在与 ISSU 相关的任何问题。如果出现问题,将创建日志消息。

了解 ISSU 的常见错误处理

问题

描述

在 ISSU 过程中,您可能会遇到一些问题。本节提供有关如何处理它们的详细信息。

溶液

在 ISSU 期间遇到的任何错误都会导致日志消息的创建,并且 ISSU 将继续运行,而不会影响流量。如果需要恢复到以前的版本,则会记录事件或停止 ISSU,以免在机箱群集的两个节点上创建任何不匹配的版本。 表 2 提供了一些常见错误情况及其解决方法。 表 2 中使用的示例消息来自SRX1500设备,也适用于所有受支持的SRX 系列防火墙。

表 2:与 ISSU 相关的错误和解决方案

错误条件

解决 方案

当 ISSU 的上一个实例已在进行中时,尝试启动 ISSU

将显示以下消息:

warning: ISSU in progress

您可以中止当前 ISSU 进程,然后使用 request chassis cluster in-service-upgrade abort 命令再次启动 ISSU。

辅助节点上的重新启动失败

不会发生服务停机,因为主节点会继续提供所需的服务。将显示详细的控制台消息,请求您手动清除现有 ISSU 状态并还原机箱群集。

error: [Oct  6 12:30:16]: Reboot secondary node failed (error-code: 4.1)

       error: [Oct  6 12:30:16]: ISSU Aborted! Backup node maybe in inconsistent state, Please restore backup node
       [Oct  6 12:30:16]: ISSU aborted. But, both nodes are in ISSU window.
       Please do the following:
       1. Rollback the node with the newer image using rollback command
          Note: use the 'node' option in the rollback command
          otherwise, images on both nodes will be rolled back
       2. Make sure that both nodes (will) have the same image
       3. Ensure the node with older image is primary for all RGs
       4. Abort ISSU on both nodes
       5. Reboot the rolled back node

从 Junos OS 版本 17.4R1 开始,在 SRX1500、SRX4100、SRX4200 和 SRX4600 设备上的机箱群集中,辅助节点初始重新启动的保持计时器从 15 分钟(900 秒)延长到 45 分钟(2700 秒)。

辅助节点完成冷同步失败

如果辅助节点无法完成冷同步,则主节点超时。将显示详细的控制台消息,说明您手动清除现有 ISSU 状态并还原机箱群集。在这种情况下,不会发生服务停机。

[Oct  3 14:00:46]: timeout waiting for secondary node node1 to sync(error-code: 6.1)
        Chassis control process started, pid 36707 

       error: [Oct  3 14:00:46]: ISSU Aborted! Backup node has been upgraded, Please restore backup node 
       [Oct  3 14:00:46]: ISSU aborted. But, both nodes are in ISSU window. 
       Please do the following: 
      1. Rollback the node with the newer image using rollback command 
          Note: use the 'node' option in the rollback command 
          otherwise, images on both nodes will be rolled back 
      2. Make sure that both nodes (will) have the same image 
      3. Ensure the node with older image is primary for all RGs 
      4. Abort ISSU on both nodes 
      5. Reboot the rolled back node  

新升级的辅助服务器故障切换失败

不会发生服务停机,因为主节点会继续提供所需的服务。将显示详细的控制台消息,请求您手动清除现有 ISSU 状态并还原机箱群集。

[Aug 27 15:28:17]: Secondary node0 ready for failover.
[Aug 27 15:28:17]: Failing over all redundancy-groups to node0
ISSU: Preparing for Switchover
error: remote rg1 priority zero, abort failover.
[Aug 27 15:28:17]: failover all RGs to node node0 failed (error-code: 7.1)
error: [Aug 27 15:28:17]: ISSU Aborted!
[Aug 27 15:28:17]: ISSU aborted. But, both nodes are in ISSU window.
Please do the following:
1. Rollback the node with the newer image using rollback command
    Note: use the 'node' option in the rollback command
           otherwise, images on both nodes will be rolled back
2. Make sure that both nodes (will) have the same image
3. Ensure the node with older image is primary for all RGs
4. Abort ISSU on both nodes
5. Reboot the rolled back node
{primary:node1}

主电源升级失败

不会发生服务停机,因为辅助节点作为主节点进行故障转移并继续提供所需的服务。

主节点重新启动失败

在主节点重新启动之前,如果设备不在 ISSU 设置中,则不会显示与 ISSU 相关的错误消息。如果检测到任何其他故障,将显示以下重新启动错误消息:

Reboot failure on     Before the reboot of primary node, devices will be out of ISSU setup and no primary node error messages will be displayed.
Primary node

ISSU 支持相关错误

问题

描述

由于不受支持的软件和不支持的功能配置,会发生安装失败。

溶液

使用以下错误消息来了解与兼容性相关的问题:

初始验证检查失败

问题

描述

初始验证检查失败。

溶液

如果映像不存在或映像文件损坏,则验证检查将失败。当映像不存在且 ISSU 中止时,初始验证检查失败时,将显示以下错误消息:

当图像不存在时

当图像文件损坏时

如果图像文件已损坏,将显示以下输出:

主节点验证设备配置,以确保可以使用新的软件版本进行提交。如果出现任何问题,ISSU 将中止并显示错误消息。

安装相关错误

问题

描述

安装映像文件不存在或远程站点无法访问。

溶液

使用以下错误消息来了解与安装相关的问题:

ISSU 下载 ISSU 命令中指定的安装映像作为参数。映像文件可以是本地文件,也可以位于远程站点。如果文件不存在或远程站点无法访问,则会报告错误。

冗余组故障切换错误

问题

描述

自动冗余组 (RG) 故障问题。

溶液

使用以下错误消息来了解问题:

内核状态同步错误

问题

描述

与 ksyncd 相关的错误。

溶液

使用以下错误消息来了解与 ksyncd 相关的问题:

ISSU 检查辅助节点(节点 1)上是否存在任何 ksyncd 错误,如果出现任何问题,则显示错误消息并中止升级。

特定于平台的 不中断服务的软件升级 行为

使用 功能浏览器 确认平台和版本对特定功能的支持。

使用下表查看您的平台特定于平台的行为。

平台

差异

SRX 系列

  • SRX1500、SRX4100 和 SRX4200 防火墙支持从 Junos OS 17.4 升级到后续的 17.4 版本,无法从之前的 Junos OS 版本升级到 17.4 版本。

  • SRX5400、SRX5600 和 SRX5800 防火墙支持从 Junos OS 17.3 升级到后续的 17.3 版本,无法从早期的 Junos OS 版本升级到 17.3 及更高版本。

  • SRX1500、SRX1600、SRX2300、SRX4100、SRX4200、SRX4300 和 SRX4600 防火墙不支持该 request system snapshot 命令。
  • 支持 ISSU 的 SRX1500、SRX4100 和 SRX4200 防火墙允许您移除原始映像文件。包含在 unlink 命令中 user@host> request system software in-service-upgrade image-name-with-full-path unlink

变更历史表

是否支持某项功能取决于您使用的平台和版本。使用 功能浏览器 查看您使用的平台是否支持某项功能。

释放
描述
17.4R1
从 Junos OS 版本 17.4R1 开始,SRX4600设备均支持 ISSU。
17.4R1
从 Junos OS 版本 17.4R1 开始,在 SRX1500、SRX4100、SRX4200 和 SRX4600 设备上的机箱群集中,辅助节点初始重新启动的保持计时器从 15 分钟(900 秒)延长到 45 分钟(2700 秒)。
15.1X49-D80
从 Junos OS 版本 15.1X49-D80 开始,SRX4100 和 SRX4200 设备均支持 ISSU。
15.1X49-D70
从 Junos OS 版本 15.1X49-D70 开始,SRX1500设备都支持 ISSU。