Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Monitoring and Troubleshooting

本节介绍 Junos OS 的网络监控和故障排除功能。

Ping 主机

目的

使用 CLI ping 命令验证是否可以通过网络访问主机。此命令可用于诊断主机和网络连接问题。设备向指定主机发送一系列互联网控制消息协议 (ICMP) 回显 (ping) 请求,并接收 ICMP 回显响应。

操作

ping要使用命令向 host3 发送四个请求(ping 计数),请执行以下操作:

示例输出

命令名称

意义

  • 结果 ping 显示以下信息:

    • ping 响应数据包的大小(以字节为单位)。

    • 从中发送响应的主机的 IP 地址。

    • ping 响应数据包的序列号。您可以使用此值将 ping 响应与相应的 ping 请求进行匹配。

    • ping 响应数据包的生存时间 (ttl) 跃点计数值。

    • 发送 ping 请求数据包和接收 ping 响应数据包之间的总时间(以毫秒为单位)。此值也称为往返时间。

    • 发送到主机的 ping 请求(探测)数。

    • 从主机收到的 ping 响应数。

    • 丢包百分比。

    • 往返时间统计:往返时间的最小值、平均值、最大值和标准偏差。

监控通过路由器或交换机的流量

要诊断问题,请显示有关通过路由器或交换机上物理接口的流量的实时统计信息。

要显示有关物理接口的实时统计信息,请执行以下操作:

显示有关路由器或交换机上所有接口的实时统计信息

目的

显示有关通过路由器或交换机上所有接口的流量的实时统计信息。

操作

要显示有关通过路由器或交换机上所有接口的流量的实时统计信息,请执行以下操作:

示例输出
命令名称

意义

示例输出显示活动接口的流量数据,以及自命令启动或使用密钥清除 C 计数器以来每个字段发生更改的数量。在此示例中, monitor interface 自发出命令或计数器上次返回零以来,命令已运行 15 秒。

显示有关路由器或交换机上某个接口的实时统计信息

目的

显示有关通过路由器或交换机上的接口的流量的实时统计信息。

操作

要显示通过路由器或交换机上某个接口的流量,请使用以下 Junos OS CLI 操作模式命令:

示例输出
命令名称

意义

示例输出显示特定 SONET 接口的输入和输出数据包 (so-0/0/1)。这些信息可能包括常见的接口故障,如 SONET/SDH 和 T3 报警、检测到的环路以及成帧错误增加。有关详细信息,请参阅 跟踪错误条件的清单

要在命令运行时控制命令的输出,请使用 中 表 1所示的键。

表 1: 监视器接口命令的输出控制键

操作

图例标示

显示有关下一个接口的信息。该命令按 monitor interface 命令显示 show interfaces terse 物理接口或逻辑接口的顺序滚动浏览物理接口或逻辑接口。

N

显示有关其他接口的信息。该命令会提示您输入特定接口的名称。

I

冻结显示,停止显示更新的统计信息。

F

解冻显示,恢复显示更新的统计信息。

T

清除(零)自启动以来 monitor interface 的当前增量计数器。它不会清除累积计数器。

C

停止命令 monitor interface

Q

有关将匹配条件与monitor traffic 命令配合使用的详细信息,请参阅 CLI 资源管理器

动态三元内容可寻址存储器概述

在 ACX 系列路由器中,三元内容寻址存储器 (TCAM) 用于防火墙、连接故障管理、PTPoE、RFC 2544 等各种应用。ACX 系列路由器中的数据包转发引擎 (PFE) 使用具有已定义 TCAM 空间限制的 TCAM。各种过滤器应用的TCAM资源分配是静态分布的。当所有筛选器应用程序可能不会同时使用此 TCAM 资源时,这种静态分配会导致 TCAM 资源的低效利用。

ACX 路由器中 TCAM 空间的动态分配有效地为各种过滤器应用分配了可用的 TCAM 资源。在动态TCAM模型中,各种过滤器应用(如inet防火墙,桥接防火墙,cfm过滤器等)可以在需要时最佳地利用可用的TCAM资源。动态 TCAM 资源分配是使用驱动的,并根据需要为过滤器应用动态分配。当筛选器应用程序不再使用 TCAM 空间时,资源将被释放并可供其他应用程序使用。这种动态 TCAM 模型可根据应用需求满足更高规模的 TCAM 资源利用率。

使用动态 TCAM 基础架构的应用

以下过滤器应用程序类别使用动态 TCAM 基础结构:

  • 防火墙过滤器 - 所有防火墙配置

  • 隐式过滤器 — 路由引擎 (RE) 恶魔使用过滤器实现其功能。例如,连接故障管理、IP MAC 验证等。

  • 动态过滤器 - 使用过滤器实现 PFE 级别功能的应用程序。例如,逻辑接口级固定分类器、RFC 2544 等。RE 恶魔不会知道这些过滤器。

  • 系统初始化过滤器 — 需要系统级别条目或路由器引导顺序需要固定条目集的过滤器。例如,第 2 层和第 3 层控制协议陷阱、默认 ARP 监管器等。

    注:

    具有第 2 层和第 3 层控制协议陷阱应用程序的 System-init 过滤器对于整体系统功能至关重要。该控制组中的应用从整个TCAM空间中消耗固定且最小的TCAM空间。系统初始化过滤器不会使用动态 TCAM 基础架构,而是在引导序列期间初始化路由器时创建。

使用 TCAM 资源的功能

使用 TCAM 资源的应用程序在本文档中称为 tcam-app。例如,inet防火墙、网桥防火墙、连接故障管理、链路故障管理等都是不同的 tcam-app。

表 2 介绍了使用 TCAM 资源的 TCAM 应用列表。

表 2: 使用 TCAM 资源的功能

TCAM 应用程序/TCAM 用户

特性/功能

中风阶段

bd-dtag-validate

桥接域双标记验证

注:

ACX5048 和 ACX5096 路由器不支持此功能。

出口

bd-tpid-swap

具有交换 tpid 操作的桥接域 VLAN 映射

出口

cfm-bd-filter

连接故障管理隐式桥接域过滤器

入口

cfm-filter

连接故障管理隐式过滤器

入口

cfm-vpls-filter

连接故障管理隐式 vpls 筛选器

注:

此功能仅在 ACX5048 和 ACX5096 路由器上受支持。

入口

cfm-vpls-ifl-filter

连接故障管理隐式 vpls 逻辑接口过滤器

注:

此功能仅在 ACX5048 和 ACX5096 路由器上受支持。

入口

cos-fc

逻辑接口级固定分类器

预入口

fw-ccc-in

电路交叉连接家族入口防火墙

入口

fw-family-out

系列级出口防火墙

出口

fw-fbf

基于防火墙过滤器的转发

预入口

fw-fbf-inet6

inet6 系列基于防火墙过滤器的转发

预入口

fw-ifl-in

逻辑接口级入口防火墙

入口

fw-ifl-out

逻辑接口级出口防火墙

出口

fw-inet-ftf

转发表上的 Inet 系列入口防火墙

入口

fw-inet6-ftf

转发表上的 Inet6 系列入口防火墙

入口

fw-inet-in

Inet 家族入口防火墙

入口

fw-inet-rpf

RPF 上的 Inet 系列入口防火墙失败检查

入口

fw-inet6-in

Inet6 系列入口防火墙

入口

fw-inet6-family-out

Inet6 系列级出口防火墙

出口

fw-inet6-rpf

RPF 上的 Inet6 系列入口防火墙故障检查

入口

fw-inet-pm

具有端口镜像操作的 Inet 系列防火墙

注:

ACX5048 和 ACX5096 路由器不支持此功能。

入口

fw-l2-in

第 2 层接口上的桥接家族入口防火墙

入口

fw-mpls-in

MPLS 系列入口防火墙

入口

fw-semantics

CLI 配置的防火墙的防火墙共享语义

预入口

fw-vpls-in

VPLS 接口上的 VPLS 系列入口防火墙

入口

ifd-src-mac-fil

物理接口级别源 MAC 过滤器

预入口

ifl-statistics-in

入口处的逻辑级接口统计信息

入口

ifl-statistics-out

出口处的逻辑级接口统计信息

出口

ing-out-iff

代表出口家族过滤器的入口应用程序,用于日志和系统日志

入口

ip-mac-val

IP MAC 验证

预入口

ip-mac-val-bcast

广播的 IP MAC 验证

预入口

ipsec-reverse-fil

IPsec 服务的反向筛选器

注:

ACX5048 和 ACX5096 路由器不支持此功能。

入口

irb-cos-rw

IRB CoS 重写

出口

lfm-802.3ah-in

入口处的链路故障管理 (IEEE 802.3ah)

注:

ACX5048 和 ACX5096 路由器不支持此功能。

入口

lfm-802.3ah-out

出口链路故障管理 (IEEE 802.3ah)

出口

lo0-inet-fil

Looback 接口 inet filter

入口

lo0-inet6-fil

回路接口 inet6 过滤器

入口

mac-drop-cnt

MAC 验证和源 MAC 过滤器的丢弃统计信息

入口

mrouter-port-in

用于侦听的组播路由器端口

入口

napt-reverse-fil

用于网络地址端口转换 (NAPT) 服务的反向筛选器

注:

ACX5048 和 ACX5096 路由器不支持此功能。

入口

no-local-switching

桥接非本地交换

入口

ptpoe

以太网点对点陷阱

注:

ACX5048 和 ACX5096 路由器不支持此功能。

入口

ptpoe-cos-rw

针对 PTPoE 的 CoS 重写

注:

ACX5048 和 ACX5096 路由器不支持此功能。

出口

rfc2544-layer2-in

入口处第 2 层服务的RFC2544

预入口

rfc2544-layer2-out

出口处第 2 层服务的RFC2544

注:

ACX5048 和 ACX5096 路由器不支持此功能。

出口

service-filter-in

入口处的服务过滤器

注:

ACX5048 和 ACX5096 路由器不支持此功能。

入口

监控 TCAM 资源使用情况

您可以使用 show 和 clear 命令来监控动态 TCAM 资源使用情况并对其进行故障排除。

表 3 汇总了可用于监控动态 TCAM 资源使用情况并对其进行故障排除的命令行界面 (CLI) 命令。

表 3: 显示和清除用于监控动态 TCAM 和排除故障的命令

任务

命令

显示特定应用程序的共享应用程序和相关应用程序

显示 PFE TCAM 应用

显示应用程序和阶段(出口、入口和前入口)的 TCAM 资源使用情况

显示 PFE TCAM 使用情况

(ACX5448) 显示 PFE 过滤器硬件摘要

显示应用程序和阶段(出口、入口和前入口)的 TCAM 资源使用错误

显示 PFE TCAM 错误

清除应用程序和阶段(出口、入口和前入口)的 TCAM 资源使用错误统计信息

清除 PFE TCAM 错误

示例:监控 TCAM 资源并对其进行故障排除

本节介绍一个用例,在该用例中,您可以使用 show 命令监控 TCAM 资源并对其进行故障排除。在此用例场景中,您已配置第 2 层服务,并且第 2 层服务相关应用程序正在使用 TCAM 资源。如本例所示,动态方法为您提供了根据需要管理 TCAM 资源的完全灵活性。

服务要求如下:

  • 每个桥接域都有一个 UNI 接口和一个 NNI 接口

  • 每个 UNI 接口都具有:

    • 一个逻辑接口级监管器,用于以 10 Mbps 的速度监管流量。

    • 具有四个术语的多域分类器,用于分配转发类和丢失优先级。

  • 每个 UNI 接口在级别 4 配置 CFM UP MEP。

  • 每个 NNI 接口在级别 2 配置 CFM DOWN MEP

让我们考虑一个场景,其中路由器上配置了 100 个服务。使用此规模,已成功配置所有应用程序,并且状态显示 OK 状态。

  1. 查看所有阶段的 TCAM 资源使用情况。

    要查看所有阶段(出口、入口和入口前)的 TCAM 资源使用情况,请使用 show pfe tcam usage all-tcam-stages detail 命令。在ACX5448路由器上,使用命令查看 show pfe filter hw summary TCAM 资源 usgae。

  2. 在路由器上配置其他第 2 层服务。

    例如,在路由器上再添加 20 个服务,从而将服务总数增加到 120 个。添加更多服务后,您可以通过使用命令 show log messages验证 syslog 消息或运行 show pfe tcam errors 命令来检查配置的状态。

    以下是系统日志消息输出示例,显示了运行 CLI 命令导致 show log messages 较新配置的以太网交换系列过滤器的 TCAM 资源短缺情况。

    show pfe tcam errors all-tcam-stages detail如果使用 CLI 命令验证配置的状态,则输出将如下所示:

    输出指示 fw-l2-in 应用程序正在耗尽 TCAM 资源并进入失败状态。尽管入口阶段有两个 TCAM 切片可用,但由于 fw-l2-in 其模式 (DOUBLE),应用程序无法使用可用的 TCAM 空间,从而导致资源短缺故障。

  3. 修复由于 TCAM 资源短缺而失败的应用程序。

    fw-l2-in由于在路由器上添加了更多数量的服务,导致 TCAM 资源不足,应用程序失败。尽管其他应用程序似乎工作正常,但建议停用或删除新添加的服务,以便 fw-l2-in 应用程序移动到 OK 状态。删除或停用新添加的服务后,需要运行 show pfe tcam usageshow pfe tcam error 命令来验证是否不再有应用程序处于失败状态。

    要查看所有阶段(出口、入口和入口前)的 TCAM 资源使用情况,请使用 show pfe tcam usage all-tcam-stages detail 命令。对于ACX5448路由器,请使用 show pfe filter hw summary 命令查看 TCAM 资源使用情况。

    要查看所有阶段(出口、入口和入口前)的 TCAM 资源使用错误,请使用命令 show pfe tcam errors all-tcam-stages

    您可以看到,所有使用 TCAM 资源的应用程序都处于 OK 状态,并指示硬件已成功配置。

注:

如示例中所示,您需要在每个步骤中运行 show pfe tcam errorsshow pfe tcam usage 命令,以确保您的配置有效,并且使用 TCAM 资源的应用程序处于正常状态。对于ACX5448路由器,请使用 show pfe filter hw summary 命令查看 TCAM 资源使用情况。

监控 ACX 系列路由器中的 TCAM 资源并对其进行故障排除

ACX 系列中三元内容寻址存储器 (TCAM) 空间的动态分配有效地为各种滤波器应用分配了可用的 TCAM 资源。在动态TCAM模型中,各种过滤器应用(如inet防火墙,桥接防火墙,cfm过滤器等)可以在需要时最佳地利用可用的TCAM资源。动态 TCAM 资源分配是使用驱动的,并根据需要为过滤器应用动态分配。当筛选器应用程序不再使用 TCAM 空间时,资源将被释放并可供其他应用程序使用。这种动态 TCAM 模型可根据应用需求满足更高规模的 TCAM 资源利用率。您可以使用 show 和 clear 命令监控 ACX 系列路由器中的动态 TCAM 资源使用情况并对其进行故障排除。

注:

使用 TCAM 资源的应用程序在本文档中称为 tcam-app。

动态三元内容可寻址存储器概述 显示了监控 ACX 系列路由器中的 TCAM 资源并对其进行故障排除的任务和命令

表 4: 用于监控 ACX 系列中的 TCAM 资源并对其进行故障排除的命令

如何

命令

查看特定应用程序的共享应用程序和相关应用程序。

show pfe tcam app (list-shared-apps | list-related-apps)

查看所有 TCAM 阶段的申请数量。

show pfe tcam usage all-tcam-stages

查看在指定阶段使用 TCAM 资源的应用程序数。

show pfe tcam usage tcam-stage (ingress | egress | pre-egress)

详细查看应用程序使用的 TCAM 资源。

show pfe tcam usage app <application-name> detail

查看应用在指定阶段使用的 TCAM 资源。

show pfe tcam usage tcam-stage (ingress | egress | pre-egress) app <application-name>

了解 tcam 应用程序消耗的 TCAM 资源数量

show pfe tcam usage app <application-name>

查看所有阶段的 TCAM 资源使用错误。

show pfe tcam errors all-tcam-stages detail

查看阶段的 TCAM 资源使用错误

show pfe tcam errors tcam-stage (ingress | egress | pre-egress)

查看应用程序的 TCAM 资源使用错误。

show pfe tcam errors app <application-name>

查看应用程序及其其他共享应用程序的 TCAM 资源使用错误。

show pfe tcam errors app <application-name> shared-usage

清除所有阶段的 TCAM 资源使用情况错误统计信息。

clear pfe tcam-errors all-tcam-stages

清除指定阶段的 TCAM 资源使用情况错误统计信息

clear pfe tcam-errors tcam-stage (ingress | egress | pre-egress)

清除应用程序的 TCAM 资源使用情况错误统计信息。

clear pfe tcam-errors app <application-name>

要了解有关 ACX 系列中动态 TCAM 的更多信息,请参阅 动态三元内容可寻址内存概述

ACX5048路由器和ACX5096路由器上的服务扩展

在ACX5048和ACX5096路由器上,部署的典型服务(如 ELINE、ELAN 和 IP VPN)可能需要使用动态 TCAM 基础架构的应用程序(如监管器、防火墙过滤器、连接故障管理 IEEE 802.1ag、RFC2544)。

注:

使用 TCAM 资源的服务应用程序受 TCAM 资源可用性的限制。因此,服务的规模取决于此类应用程序对 TCAM 资源的消耗。

有关监控 ACX5048 和 ACX5096 路由器中服务规模并对其进行故障排除的示例用例,请参阅 动态三元内容可寻址内存概述 部分。

逻辑系统安全策略中的 DNS 名称解析疑难解答(仅限主管理员)

问题

Description

安全策略中使用的通讯簿条目中的主机名地址可能无法正确解析。

原因

通常,包含动态主机名的通讯簿条目会自动刷新 SRX 系列防火墙。与 DNS 条目关联的 TTL 字段指示应在策略缓存中刷新条目的时间。TTL 值过期后,SRX 系列防火墙会自动刷新通讯簿条目的 DNS 条目。

但是,如果 SRX 系列防火墙无法从 DNS 服务器获取响应(例如,DNS 请求或响应数据包在网络中丢失,或者 DNS 服务器无法发送响应),则通讯簿条目中的主机名地址可能无法正确解析。这可能会导致流量丢弃,因为未找到安全策略或会话匹配项。

解决方案

主管理员可以使用该 show security dns-cache 命令在 SRX 系列防火墙上显示 DNS 缓存信息。如果需要刷新 DNS 缓存信息,主管理员可以使用该 clear security dns-cache 命令。

注:

这些命令仅供为逻辑系统配置的设备上的主管理员使用。此命令在用户逻辑系统或未为逻辑系统配置的设备上不可用。

安全策略故障排除

在路由引擎和数据包转发引擎之间同步策略

问题

Description

安全策略存储在路由引擎和数据包转发引擎中。提交配置时,安全策略将从路由引擎推送到数据包转发引擎。如果路由引擎上的安全策略与数据包转发引擎不同步,则提交配置将失败。如果反复尝试提交,可能会生成核心转储文件。不同步可能是由于:

  • 从路由引擎到数据包转发引擎的策略消息在传输过程中丢失。

  • 路由引擎错误,例如重复使用的策略 UID。

环境

路由引擎和数据包转发引擎中的策略必须同步才能提交配置。但是,在某些情况下,路由引擎和数据包转发引擎中的策略可能不同步,从而导致提交失败。

症状

修改策略配置且策略不同步时,将显示以下错误消息 - error: Warning: policy might be out of sync between RE and PFE <SPU-name(s)> Please request security policies check/resync.

解决方案

show security policies checksum如果安全策略不同步,请使用命令显示安全策略校验和值,并使用request security policies resync 命令同步路由引擎和数据包转发引擎中的安全策略配置。

检查安全策略提交失败

问题

Description

大多数策略配置失败发生在提交或运行时期间。

在配置模式下执行 CLI 命令 commit-check 时,将直接在 CLI 上报告提交失败。这些错误是配置错误,如果不修复这些错误,则无法提交配置。

解决方案

要修复这些错误,请执行以下操作:

  1. 查看配置数据。

  2. 打开文件 /var/log/nsd_chk_only。每次执行提交检查时,都会覆盖此文件,并包含详细的失败信息。

验证安全策略提交

问题

Description

执行策略配置提交后,如果您发现系统行为不正确,请使用以下步骤解决此问题:

解决方案

  1. 操作 show 命令 - 执行安全策略的操作命令,并验证输出中显示的信息是否与预期一致。否则,需要相应地更改配置。

  2. 跟踪选项 - 在策略配置中设置 traceoptions 命令。可以根据用户对命令输出的分析 show 选择此层次结构下的标志。如果无法确定要使用的标志,则可以使用 flag 选项 all 捕获所有跟踪日志。

您还可以配置可选文件名来捕获日志。

如果在跟踪选项中指定了文件名,则可以在 /var/log/<filename> 中查找日志文件,以确定文件中是否报告了任何错误。(如果未指定文件名,则默认文件名为事件。错误消息指示故障位置和适当的原因。

配置跟踪选项后,必须重新提交导致不正确系统行为的配置更改。

调试策略查找

问题

Description

如果您具有正确的配置,但某些流量被错误地丢弃或允许,则可以在安全策略跟踪选项中启用该 lookup 标志。该 lookup 标志在跟踪文件中记录与查找相关的跟踪。

解决方案

记录用于对 ISSU 相关问题进行故障排除的错误消息

在 ISSU 升级过程中可能会出现以下问题。您可以使用日志中的详细信息来识别错误。有关特定系统日志消息的详细信息,请参阅 系统日志资源管理器

机箱进程错误

问题

Description

与机箱相关的错误。

解决方案

使用错误消息了解与机箱相关的问题。

ISSU 启动时,系统会向机箱发送请求,从机箱角度检查是否存在与 ISSU 相关的任何问题。如果出现问题,则会创建日志消息。

了解 ISSU 的常见错误处理

问题

Description

在 ISSU 过程中,您可能会遇到一些问题。本节提供有关如何处理它们的详细信息。

解决方案

ISSU 期间遇到的任何错误都会导致创建日志消息,并且 ISSU 将继续运行,而不会影响流量。如果需要恢复到以前的版本,则会记录事件或停止 ISSU,以免在机箱群集的两个节点上创建任何不匹配的版本。 表 8 提供了一些常见的错误情况及其解决方法。中使用的 表 8 示例消息来自SRX1500设备,也适用于所有受支持的 SRX 系列防火墙。

表 8: 与 ISSU 相关的错误和解决方案

错误条件

解决方案

当 ISSU 的先前实例已在进行中时,尝试启动 ISSU

将显示以下消息:

warning: ISSU in progress

您可以中止当前的 ISSU 进程,然后使用命令再次 request chassis cluster in-service-upgrade abort 启动 ISSU。

辅助节点上的重新启动失败

不会发生服务停机,因为主节点会继续提供所需的服务。将显示详细的控制台消息,要求您手动清除现有 ISSU 状态并恢复机箱群集。

error: [Oct  6 12:30:16]: Reboot secondary node failed (error-code: 4.1)

       error: [Oct  6 12:30:16]: ISSU Aborted! Backup node maybe in inconsistent state, Please restore backup node
       [Oct  6 12:30:16]: ISSU aborted. But, both nodes are in ISSU window.
       Please do the following:
       1. Rollback the node with the newer image using rollback command
          Note: use the 'node' option in the rollback command
          otherwise, images on both nodes will be rolled back
       2. Make sure that both nodes (will) have the same image
       3. Ensure the node with older image is primary for all RGs
       4. Abort ISSU on both nodes
       5. Reboot the rolled back node

从 Junos OS 17.4R1 版开始,在 SRX1500、SRX4100、SRX4200 和 SRX4600 设备上的机箱群集中,ISSU 过程中辅助节点初始重新启动的保持计时器从 15 分钟(900 秒)延长至 45 分钟(2700 秒)。

辅助节点未能完成冷同步

如果辅助节点无法完成冷同步,则主节点将超时。将显示详细的控制台消息,提示您手动清除现有 ISSU 状态并恢复机箱群集。在这种情况下,不会发生服务停机。

[Oct  3 14:00:46]: timeout waiting for secondary node node1 to sync(error-code: 6.1)
        Chassis control process started, pid 36707 

       error: [Oct  3 14:00:46]: ISSU Aborted! Backup node has been upgraded, Please restore backup node 
       [Oct  3 14:00:46]: ISSU aborted. But, both nodes are in ISSU window. 
       Please do the following: 
      1. Rollback the node with the newer image using rollback command 
          Note: use the 'node' option in the rollback command 
          otherwise, images on both nodes will be rolled back 
      2. Make sure that both nodes (will) have the same image 
      3. Ensure the node with older image is primary for all RGs 
      4. Abort ISSU on both nodes 
      5. Reboot the rolled back node  

新升级的辅助数据库的故障转移失败

不会发生服务停机,因为主节点会继续提供所需的服务。将显示详细的控制台消息,要求您手动清除现有 ISSU 状态并恢复机箱群集。

[Aug 27 15:28:17]: Secondary node0 ready for failover.
[Aug 27 15:28:17]: Failing over all redundancy-groups to node0
ISSU: Preparing for Switchover
error: remote rg1 priority zero, abort failover.
[Aug 27 15:28:17]: failover all RGs to node node0 failed (error-code: 7.1)
error: [Aug 27 15:28:17]: ISSU Aborted!
[Aug 27 15:28:17]: ISSU aborted. But, both nodes are in ISSU window.
Please do the following:
1. Rollback the node with the newer image using rollback command
    Note: use the 'node' option in the rollback command
           otherwise, images on both nodes will be rolled back
2. Make sure that both nodes (will) have the same image
3. Ensure the node with older image is primary for all RGs
4. Abort ISSU on both nodes
5. Reboot the rolled back node
{primary:node1}

主数据库升级失败

不会发生服务停机,因为辅助节点作为主节点进行故障转移并继续提供所需的服务。

主节点重新启动失败

在重新启动主节点之前,如果设备不在 ISSU 设置中,则不会显示与 ISSU 相关的错误消息。如果检测到任何其他故障,将显示以下重新启动错误消息:

Reboot failure on     Before the reboot of primary node, devices will be out of ISSU setup and no primary node error messages will be displayed.
Primary node

ISSU 支持相关错误

问题

Description

由于不受支持的软件和不受支持的功能配置,会发生安装失败。

解决方案

使用以下错误消息了解与兼容性相关的问题:

初始验证检查失败

问题

Description

初始验证检查失败。

解决方案

如果映像不存在或映像文件已损坏,则验证检查将失败。当初始验证检查失败且映像不存在且 ISSU 中止时,将显示以下错误消息:

当图像不存在时

当图像文件损坏时

如果图像文件已损坏,将显示以下输出:

主节点验证设备配置,以确保可以使用新的软件版本提交设备配置。如果出现任何问题,ISSU 将中止并显示错误消息。

与安装相关的错误

问题

Description

安装映像文件不存在或无法访问远程站点。

解决方案

使用以下错误消息了解与安装相关的问题:

ISSU 将 ISSU 命令中指定的安装映像作为参数下载。映像文件可以是本地文件,也可以位于远程站点。如果该文件不存在或远程访问站点,则会报告错误。

冗余组故障切换错误

问题

Description

自动冗余组 (RG) 故障问题。

解决方案

使用以下错误消息来了解问题:

内核状态同步错误

问题

Description

与 ksyncd 相关的错误。

解决方案

使用以下错误消息来了解与 ksyncd 相关的问题:

ISSU 检查辅助节点(节点 1)上是否存在任何 ksyncd 错误,如果有任何问题,则显示错误消息并中止升级。

变更历史表

是否支持某项功能取决于您使用的平台和版本。 使用 Feature Explorer 查看您使用的平台是否支持某项功能。

版本
说明
17.4R1
从 Junos OS 17.4R1 版开始,在 SRX1500、SRX4100、SRX4200 和 SRX4600 设备上的机箱群集中,ISSU 过程中辅助节点初始重新启动的保持计时器从 15 分钟(900 秒)延长至 45 分钟(2700 秒)。