机箱群集管理问题故障排除
无法使用管理端口或收入端口管理 SRX 系列机箱群集
诊断
您使用机箱群集中的哪个节点来管理群集?
主节点 - 继续执行以下操作:
使用 J-Web 管理机箱群集。
注意:您只能使用 J-Web 管理主节点。
使用收入端口或 fxp0 管理端口管理机箱群集。
注意:您可以使用收入端口或 fxp0 管理端口来管理主节点。
辅助节点 — 继续使用 fxp0 管理端口管理机箱群集
注意:只能使用 fxp0 管理端口管理辅助节点。
分辨率
- 使用 J-Web 管理机箱群集
- 使用收入端口或 fxp0 管理端口管理机箱群集
- 使用 fxp0 管理端口管理机箱群集
- 下一步是什么
- 使用 J-Web 管理机箱群集
- 使用收入端口或 fxp0 管理端口管理机箱群集
- 使用 fxp0 管理端口管理机箱群集
- 下一步是什么
使用 J-Web 管理机箱群集
您只能使用 J-Web 管理主节点。
-
将控制台连接到主节点。
-
使用 CLI 运行
show system services web-management
命令。 -
检查是否在Web管理HTTP/HTTPS配置下配置了环路接口(lo0)。请参阅 Web 管理(系统服务)。
-
如果在 Web 管理 HTTP/HTTPS 配置下配置了环路接口 (lo0),请运行
delete system services web-management http interface lo.0
命令以移除环路接口。 -
提交更改,并检查您现在是否可以管理机箱群集。
-
如果仍然无法管理机箱群集,请继续执行 使用收入端口或 fxp0 管理端口管理机箱群集。
使用收入端口或 fxp0 管理端口管理机箱群集
您可以使用收入端口或 fxp0 管理端口来管理主节点。
-
使用要用作管理接口的主节点的收入端口连接到控制台。
-
验证管理接口的配置:
-
验证是否在相关区域的层次结构级别上 host-inbound-traffic 启用了所需的系统服务(SSH、Telnet、HTTP):
zones { security-zone trust { host-inbound-traffic { system-services { any-service; } protocols { all; } } interfaces { reth0.0 reth0.1; } }
-
验证是否在层次结构级别启用了 system services 所需的系统服务(SSH、Telnet、HTTP):
{primary:node1}[edit] root# show system services { http; ssh; telnet; }
-
-
对管理界面执行 ping 操作是否有效?
-
Yes: 请参阅当 备份路由器中的目标为 0/0 时,无法使用 fxp0 管理 SRX 系列机箱群集。如果此解决方案不起作用,请转到 “下一步” 向瞻博网络技术支持提交案例。
-
No: 继续执行步骤 4。
-
-
使用 CLI,运行
show interfaces terse
以下命令:在输出中,状态是否为
FXP0 interface
Up,它是否提供 IP 地址?-
Yes: 继续执行步骤 5。
-
No: 验证以下内容:
-
使用 CLI 验证是否正确配置了 fxp0 接口: show groups。
示例输出:
root@srx# show groups node0 { system { host-name SRX3400-1; backup-router 192.168.1.254 destination 0.0.0.0/0; } interfaces { fxp0 { unit 0 { family inet { address 192.168.1.1/24; } } } } } node1 { system { host-name SRX3400-2; backup-router 192.168.1.254 destination 0.0.0.0/0; } interfaces { fxp0 { unit 0 { family inet { address 192.168.1.2/24; } } } } } } apply-groups "${NODE}"; system { services { ftp; ssh; telnet; } }
-
检查连接到 fxp0 接口的电缆的状况。电缆状况是否良好?
-
Yes: 继续执行下一步。
-
No: 更换电缆并尝试管理机箱群集。如果仍然无法管理机箱群集,请继续执行下一步。
-
-
使用 CLI,检查错误计数器是否递增: show interfaces fxp0.0 extensive。
-
-
-
检查接口的 fxp0 IP 地址和管理设备的 IP 地址是否在同一子网中。
-
Yes: 继续执行步骤 6。
-
No:使用 CLI 检查是否存在适用于管理设备 IP 地址的路由: show route <management device IP>
-
如果管理设备 IP 地址不存在路由,请在表中为管理子网 inet.0 添加路由,并将下一跃点作为备份路由器 IP 地址。
-
-
-
使用 CLI,检查服务网关上是否有管理设备的 ARP 条目: show arp no-resolve | match <ip>。
-
Yes: 检查机箱群集是否有多个到管理设备的路由: show route <device-ip>。
-
Yes: 可能存在通过 fxp0 接口和其他接口到管理设备的路由,从而导致非对称路由。前往 下一步 ,向瞻博网络技术支持部门立案。
-
No: 继续 使用 fxp0 管理端口管理机箱群集。
-
-
No: 前往 下一步 ,向瞻博网络技术支持部门立案。
-
使用 fxp0 管理端口管理机箱群集
您只能使用 fxp0 管理端口来管理辅助节点。
-
验证辅助节点上管理接口的配置:
-
验证是否在层次结构级别启用了 host-inbound-traffic 所需的系统服务(SSH、Telnet、HTTP):
zones { security-zone trust { host-inbound-traffic { system-services { any-service; } protocols { all; } } interfaces { reth0.0 reth0.1; } }
-
验证是否在层次结构级别启用了 system services 所需的系统服务(SSH、Telnet、HTTP):
{primary:node1}[edit] root# show system services { http; ssh; telnet; }
有关配置准则的详细信息,请参阅 当备份路由器中的目标为 0/0 时,无法使用 fxp0 管理 SRX 系列 机箱群集和在 机箱群集上配置备份路由器命令 。
如果配置正确,但您仍无法管理机箱群集,请继续执行步骤 2。
-
-
主节点和辅助节点的 fxp0 接口的 IP 地址是否在同一子网中?
下一步是什么
使用 J-Web 管理机箱群集
您只能使用 J-Web 管理主节点。
将控制台连接到主节点。
使用 CLI 运行
show system services web-management
命令。检查是否在Web管理HTTP/HTTPS配置下配置了环路接口(lo0)。请参阅 Web 管理(系统服务)。
如果在 Web 管理 HTTP/HTTPS 配置下配置了环路接口 (lo0),请运行
delete system services web-management http interface lo.0
命令以移除环路接口。提交更改,并检查您现在是否可以管理机箱群集。
如果仍然无法管理机箱群集,请继续执行 使用收入端口或 fxp0 管理端口管理机箱群集。
使用收入端口或 fxp0 管理端口管理机箱群集
您可以使用收入端口或 fxp0 管理端口来管理主节点。
使用要用作管理接口的主节点的收入端口连接到控制台。
验证管理接口的配置:
验证是否在相关区域的层次结构级别上 host-inbound-traffic 启用了所需的系统服务(SSH、Telnet、HTTP):
zones { security-zone trust { host-inbound-traffic { system-services { any-service; } protocols { all; } } interfaces { reth0.0 reth0.1; } }
验证是否在层次结构级别启用了 system services 所需的系统服务(SSH、Telnet、HTTP):
{primary:node1}[edit] root# show system services { http; ssh; telnet; }
对管理界面执行 ping 操作是否有效?
Yes: 请参阅当 备份路由器中的目标为 0/0 时,无法使用 fxp0 管理 SRX 系列机箱群集。如果此解决方案不起作用,请转到 “下一步” 向瞻博网络技术支持提交案例。
No: 继续执行步骤 4。
使用 CLI,运行
show interfaces terse
以下命令:在输出中,状态是否为
FXP0 interface
Up,它是否提供 IP 地址?Yes: 继续执行步骤 5。
No: 验证以下内容:
使用 CLI 验证是否正确配置了 fxp0 接口: show groups。
示例输出:
root@srx# show groups node0 { system { host-name SRX3400-1; backup-router 192.168.1.254 destination 0.0.0.0/0; } interfaces { fxp0 { unit 0 { family inet { address 192.168.1.1/24; } } } } } node1 { system { host-name SRX3400-2; backup-router 192.168.1.254 destination 0.0.0.0/0; } interfaces { fxp0 { unit 0 { family inet { address 192.168.1.2/24; } } } } } } apply-groups "${NODE}"; system { services { ftp; ssh; telnet; } }
检查连接到 fxp0 接口的电缆的状况。电缆状况是否良好?
Yes: 继续执行下一步。
No: 更换电缆并尝试管理机箱群集。如果仍然无法管理机箱群集,请继续执行下一步。
使用 CLI,检查错误计数器是否递增: show interfaces fxp0.0 extensive。
检查接口的 fxp0 IP 地址和管理设备的 IP 地址是否在同一子网中。
Yes: 继续执行步骤 6。
No:使用 CLI 检查是否存在适用于管理设备 IP 地址的路由: show route <management device IP>
如果管理设备 IP 地址不存在路由,请在表中为管理子网 inet.0 添加路由,并将下一跃点作为备份路由器 IP 地址。
使用 CLI,检查服务网关上是否有管理设备的 ARP 条目: show arp no-resolve | match <ip>。
Yes: 检查机箱群集是否有多个到管理设备的路由: show route <device-ip>。
Yes: 可能存在通过 fxp0 接口和其他接口到管理设备的路由,从而导致非对称路由。前往 下一步 ,向瞻博网络技术支持部门立案。
No: 继续 使用 fxp0 管理端口管理机箱群集。
No: 前往 下一步 ,向瞻博网络技术支持部门立案。
使用 fxp0 管理端口管理机箱群集
您只能使用 fxp0 管理端口来管理辅助节点。
验证辅助节点上管理接口的配置:
验证是否在层次结构级别启用了 host-inbound-traffic 所需的系统服务(SSH、Telnet、HTTP):
zones { security-zone trust { host-inbound-traffic { system-services { any-service; } protocols { all; } } interfaces { reth0.0 reth0.1; } }
验证是否在层次结构级别启用了 system services 所需的系统服务(SSH、Telnet、HTTP):
{primary:node1}[edit] root# show system services { http; ssh; telnet; }
有关配置准则的详细信息,请参阅 当备份路由器中的目标为 0/0 时,无法使用 fxp0 管理 SRX 系列 机箱群集和在 机箱群集上配置备份路由器命令 。
如果配置正确,但您仍无法管理机箱群集,请继续执行步骤 2。
主节点和辅助节点的 fxp0 接口的 IP 地址是否在同一子网中?
无法使用 J-Web 管理机箱群集的辅助节点
问题
描述
无法使用 J-Web 界面管理机箱群集的辅助节点。
环境
SRX 系列机箱群集
症状
在 Junos 服务冗余协议 (JSRP) 机箱群集模式下,您无法使用 J-Web 界面管理辅助节点上的冗余组 0 (RG0)。
原因
只能使用 J-Web 界面管理主节点上的冗余组 0。
J-Web 引用的进程未在辅助节点上运行。
例子
以下示例显示了 RG0 从节点 1 故障转移到节点 0 后,节点 0 和节点 1 上的系统日志和系统进程的输出。
在节点 1 上,Web 管理进程 (httpd-gk) 已终止(退出)。
在node0上,Web管理进程(httpd-gk)启动。
两个与 http 相关的进程(httpd-gk 和 httpd)仅在 node0 上运行,node0 是 RG0 的新主节点。
{secondary:node1} root@SRX210HE-B> show chassis cluster status Cluster ID: 1 Node Priority Status Preempt Manual failover Redundancy group: 0 , Failover count: 1 node0 255 primary no yes node1 1 secondary no yes Redundancy group: 1 , Failover count: 1 node0 100 primary yes no node1 1 secondary yes no {secondary:node1} root@SRX210HE-B> show log log-any | grep web-management Jul 5 11:31:52 SRX210HE-B init: web-management (PID 9660) started Jul 5 12:00:37 SRX210HE-B init: web-management (PID 9660) SIGTERM sent Jul 5 12:00:37 SRX210HE-B init: web-management (PID 9660) exited with status=0 Normal Exit {primary:node0} root@SRX210HE-A> show log log-any | grep web-management Jul 5 12:00:37 SRX210HE-A init: web-management (PID 9498) started {primary:node0} root@SRX210HE-A> show system processes extensive node 0 | grep http 9498 root 1 76 0 12916K 4604K select 0 0:00 0.00% httpd-gk 9535 nobody 1 90 0 8860K 3264K select 0 0:00 0.00% httpd {primary:node0} root@SRX210HE-A> show system processes extensive node 1 | grep http => No httpd-gk and httpd processes running on node 1 (secondary node)
这将限制来自 J-Web 逻辑的远程过程调用 (RPC),以及随后可从辅助节点发出的页面。
解决 方案
您可以使用 CLI(SSH、telnet 和控制台)管理机箱群集的辅助节点。请参阅 使用 fxp0 管理端口管理机箱群集
当备份路由器中的目标为 0/0 时,无法使用 fxp0 管理 SRX 系列机箱群集
总结 本主题通过示例说明如何通过 fxp0 接口管理使用备份路由器配置配置的 SRX 系列机箱群集。
问题
描述
管理设备无法通过 fxp0 接口管理机箱群集,但可以对两个 fxp0 接口执行 ping 操作。
示例拓扑
拓扑、IP 地址和配置如下所示:
主 fxp0:192.168.1.1/24
辅助 fxp0:192.168.1.2/24
fxp0 网关:192.168.1.254
管理设备:172.16.1.1/24
groups { node0 { system { host-name SRX5400-1; backup-router 192.168.1.254 destination 0.0.0.0/0; } interfaces { fxp0 { unit 0 { family inet { address 192.168.1.1/24; } } } } } node1 { system { host-name SRX5400-2; backup-router 192.168.1.254 destination 0.0.0.0/0; } interfaces { fxp0 { unit 0 { family inet { address 192.168.1.2/24; } } } } } } apply-groups "${NODE}"; system { services { ftp; ssh; telnet; } }
环境
SRX 系列机箱群集
原因
172.16.1.1 的路由通过群集设备上的 fxp0 接口以外的接口。我们不建议使用 0.0.0.0/0 作为备份路由器目标。Ping 之所以有效,是因为对 fxp0 接口的传入回显请求的回显回复会按照 172.16.1.1 的路由通过 fxp0 以外的接口发出,但 Telnet 失败。
解决 方案
删除路由表中 172.16.1.1 的路由,并在组 node0/node1 中设置更具体的备份路由器目标。
例如:
groups { node0 { ... backup-router 192.168.1.254 destination 172.16.1.1/32; ... } node1 { ... backup-router 192.168.1.254 destination 172.16.1.1/32; ... }
应用配置后,路由表中不会显示任何更改,因为备份路由器配置仅用于促进备份节点上的管理访问。通过主节点上的路由启用对主节点的访问。因此,当备份路由器配置完成后,您可以看到路由已注入到辅助节点上的转发表中。您无法在辅助节点上看到路由表,因为路由子系统不在辅助节点上运行。
备份路由器配置了目标 0/0 时的示例输出
主节点上的路由表:
{primary:node0}[edit] root@SRX5400-1# run show route inet.0: 2 destinations, 2 routes (2 active, 0 holddown, 0 hidden) + = Active Route, - = Last Active, * = Both 192.168.1.0/24 *[Direct/0] 00:00:54 > via fxp0.0 192.168.1.1/32 *[Local/0] 00:00:54 Local via fxp0.0
目标为 0/0 的辅助节点上的转发表:
root@SRX3400-2# run show route forwarding-table Routing table: default.inet Internet: Destination Type RtRef Next hop Type Index NhRef Netif default user 0 28:c0:da:a0:88:0 ucst 345 2 fxp0.0 default perm 0 rjct 36 1 0.0.0.0/32 perm 0 dscd 34 1 192.168.1.0/24 intf 0 rslv 344 1 fxp0.0 192.168.1.0/32 dest 0 192.168.1.0 recv 342 1 fxp0.0 192.168.1.2/32 intf 0 192.168.1.2 locl 343 2 192.168.1.2/32 dest 0 192.168.1.2 locl 343 2 192.168.1.254/32 dest 0 28:c0:da:a0:88:0 ucst 345 2 fxp0.0 192.168.1.255/32 dest 0 192.168.1.255 bcst 336 1 fxp0.0 224.0.0.0/4 perm 0 mdsc 35 1 224.0.0.1/32 perm 0 224.0.0.1 mcst 31 1 255.255.255.255/32 perm 0 bcst 32 1 Routing table: __master.anon__.inet Internet: Destination Type RtRef Next hop Type Index NhRef Netif default perm 0 rjct 526 1 0.0.0.0/32 perm 0 dscd 524 1 224.0.0.0/4 perm 0 mdsc 525 1 224.0.0.1/32 perm 0 224.0.0.1 mcst 521 1 255.255.255.255/32 perm 0 bcst 522 1
备份路由器配置了目标 172.16.1.1/32 时的示例输出
主节点上的路由表:
{primary:node0}[edit] root@SRX5400-1# run show route inet.0: 2 destinations, 2 routes (2 active, 0 holddown, 0 hidden) + = Active Route, - = Last Active, * = Both 192.168.1.0/24 *[Direct/0] 00:17:51 > via fxp0.0 192.168.1.1/32 *[Local/0] 00:55:50 Local via fxp0.0
主节点上的转发表:
注意:在主节点上,示例输出中未显示备份路由器的路由 172.16.1.1/32。
{primary:node0}[edit] root@SRX5400-1# run show route forwarding-table Routing table: default.inet Internet: Destination Type RtRef Next hop Type Index NhRef Netif default perm 0 rjct 36 1 0.0.0.0/32 perm 0 dscd 34 1 192.168.1.0/24 intf 0 rslv 334 1 fxp0.0 192.168.1.0/32 dest 0 192.168.1.0 recv 331 1 fxp0.0 192.168.1.1/32 intf 0 192.168.1.1 locl 332 2 192.168.1.1/32 dest 0 192.168.1.1 locl 332 2 192.168.1.3/32 dest 0 5c:5e:ab:16:e3:81 ucst 339 1 fxp0.0 192.168.1.6/32 dest 0 0:26:88:4f:c8:8 ucst 340 1 fxp0.0 192.168.1.11/32 dest 0 0:30:48:bc:9f:45 ucst 342 1 fxp0.0 192.168.1.254/32 dest 0 28:c0:da:a0:88:0 ucst 343 1 fxp0.0 192.168.1.255/32 dest 0 192.168.1.255 bcst 329 1 fxp0.0 224.0.0.0/4 perm 0 mdsc 35 1 224.0.0.1/32 perm 0 224.0.0.1 mcst 31 1 255.255.255.255/32 perm 0 bcst 32 1 Routing table: __master.anon__.inet Internet: Destination Type RtRef Next hop Type Index NhRef Netif default perm 0 rjct 526 1 0.0.0.0/32 perm 0 dscd 524 1 224.0.0.0/4 perm 0 mdsc 525 1 224.0.0.1/32 perm 0 224.0.0.1 mcst 521 1 255.255.255.255/32 perm 0 bcst 522 1
辅助节点上的转发表:
注意:在辅助节点上,示例输出中显示了备份路由器的路由 172.16.1.1/32。这有助于通过 fxp0 接口访问辅助节点。
{secondary:node1}[edit] root@SRX5400-2# run show route forwarding-table Routing table: default.inet Internet: Destination Type RtRef Next hop Type Index NhRef Netif default perm 0 rjct 36 1 0.0.0.0/32 perm 0 dscd 34 1 172.16.1.1/32 user 0 192.168.1.254 ucst 345 2 fxp0.0 192.168.1.0/24 intf 0 rslv 344 1 fxp0.0 192.168.1.0/32 dest 0 192.168.1.0 recv 342 1 fxp0.0 192.168.1.2/32 intf 0 192.168.1.2 locl 343 2 192.168.1.2/32 dest 0 192.168.1.2 locl 343 2 192.168.1.254/32 dest 0 28:c0:da:a0:88:0 ucst 345 2 fxp0.0 192.168.1.255/32 dest 0 192.168.1.255 bcst 336 1 fxp0.0 224.0.0.0/4 perm 0 mdsc 35 1 224.0.0.1/32 perm 0 224.0.0.1 mcst 31 1 255.255.255.255/32 perm 0 bcst 32 1 Routing table: __master.anon__.inet Internet: Destination Type RtRef Next hop Type Index NhRef Netif default perm 0 rjct 526 1 0.0.0.0/32 perm 0 dscd 524 1 224.0.0.0/4 perm 0 mdsc 525 1 224.0.0.1/32 perm 0 224.0.0.1 mcst 521 1 255.255.255.255/32 perm 0 bcst 522 1
如果特定子网配置了通过备份路由器的路由和路由选项下的静态路由,则访问 fxp0 接口时可能会出现问题。在上面的示例中,在以下情况下,从管理设备访问 fxp0 接口时会出现问题:
同一路由与静态路由存在,并通过备份路由器。
有一种静态路由比通过备份路由器的路由更具体。
在示例中,当来自主节点的路由同步到辅助节点的转发表时,在静态路由下配置的路由优先于备份路由器下的路由。如果在备份路由器下配置 0/0,则在静态路由下获得更好匹配路由的机会更高。因此,我们建议在备份路由器下避免使用 0/0。
如果要使用备份路由器和静态路由配置到同一目标的路由,请在备份路由器下配置时拆分路由。这使得在备份路由器下配置的路由成为首选路由,并确保 fxp0 接口可访问。
[edit routing-options static route] 0.0.0.0/0 next-hop 100.200.200.254; [edit groups node0 ] backup-router 192.168.1.254 destination [0.0.0.0/1 128.0.0.0/1];
无法使用不中断服务的软件升级升级机箱群集
问题
描述
无法使用停机时间最短的升级方法升级机箱群集。
环境
SRX5400机箱群集。
症状
-
群集卡在节点 0 RG1 中,带有 IF 标志,无法升级。
-
配置提交错误显示在 CLI 上。
原因
配置在备份路由器目标(在备份 RE/节点上)和用户界面地址上具有相同的前缀。
regress@R1_re# show interfaces ge-0/0/0
unit 0 { family inet { address 192.1.1.1/24; } }
regress@R1_re# show groups re1 system backup-router
10.204.63.254 destination 192.1.1.1/18;
regress@R1_re# commit
re0: configuration check succeeds re1: error: Cannot have same prefix for backup-router destination and interface address. ge-0/0/0.0 inet 192.1.1 error: configuration check-out failed re0: error: remote commit-configuration failed on re1
解决 方案
在机箱群集模式下,使用命令的 IPv4 和 IPv6 路由器的备份路由器目标地址不得与使用命令 edit system backup-router address destination destination-address edit system inet6-backup-router address destination destination-address edit interfaces interface-name unit logical-unit-number family inet address ipv4-address 和 edit interfaces interface-name unit logical-unit-number family inet6 address ipv6-address为 IPv4 和 IPv6 配置的接口地址相同。在机箱群集上配置备份路由器命令
总结 如何使用配置命令备份 backup-router
SRX 系列机箱群集中的路由器。
原因
不支持在备份路由器上设置目标 0.0.0.0/0
(无配置)。
配置不正确的示例:
set groups node0 system backup-router 10.10.10.1 destination 0.0.0.0/0
解决 方案
有关使用非零前缀设置备份路由器的推荐方法,请参阅 配置备份路由器 。
非零子网备份路由器配置示例:
set groups node0 system backup-router 10.10.10.1 destination 10.100.0.0/16
作为 0/0 备份路由器目标的替代方法,下面是另一个示例,其中 0/0 被拆分为两个前缀:
set groups node0 system backup-router 10.10.10.1 destination 0.0.0.0/1 set groups node0 system backup-router 10.10.10.1 destination 128.0.0.0/1
如果需要通过备份路由器访问多个网络,则可以在配置中添加多个目标条目。备份路由器配置仅由 RG0 辅助节点使用。主节点继续使用 inet.0 路由表。
无法使用不中断服务的软件升级升级机箱群集
问题
描述
无法使用停机时间最短的升级方法升级机箱群集。
环境
SRX5400机箱群集。
症状
-
群集卡在节点 0 RG1 中,带有 IF 标志,无法升级。
-
配置提交错误显示在 CLI 上。
原因
配置在备份路由器目标(在备份 RE/节点上)和用户界面地址上具有相同的前缀。
regress@R1_re# show interfaces ge-0/0/0
unit 0 { family inet { address 192.1.1.1/24; } }
regress@R1_re# show groups re1 system backup-router
10.204.63.254 destination 192.1.1.1/18;
regress@R1_re# commit
re0: configuration check succeeds re1: error: Cannot have same prefix for backup-router destination and interface address. ge-0/0/0.0 inet 192.1.1 error: configuration check-out failed re0: error: remote commit-configuration failed on re1