Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

机箱群集概述

使用 功能浏览器 确认平台和版本对特定功能的支持。

查看 特定于平台的机箱群集行为 部分,了解与您的平台相关的说明。

机箱群集可在两台设备作为单个设备运行的 SRX 系列防火墙上提供高可用性。机箱群集包括SRX 系列防火墙之间的配置文件和动态运行时会话状态同步,这些都是机箱群集设置的一部分。

机箱群集概述

Junos OS 通过使用机箱群集在 SRX 系列防火墙上提供高可用性。SRX 系列防火墙可配置为在群集模式下运行,其中,一对设备可以连接在一起并配置为像单个节点一样运行,从而提供设备、接口和服务级别冗余。

对于充当有状态防火墙的 SRX 系列防火墙,务必保留两台设备之间的流量状态。在机箱群集设置中,如果发生故障,需要会话持久性,这样即使发生故障的设备正在转发流量,已建立的会话也不会被丢弃。

配置为 机箱群集后,两个节点彼此备份,一个节点充当主设备,另一个作为辅助设备,确保在发生系统或硬件故障时进行有状态的进程和服务故障切换。如果主设备发生故障,辅助设备将接管流量处理。群集节点通过两个称为控制链路和结构链路的链路连接在一起,机箱群集中的设备跨群集同步配置、内核和 PFE 会话状态,以促进高可用性、状态服务的故障切换和负载平衡。

启用机箱群集不需要单独的许可证。但是,某些 Junos OS 软件功能需要许可证才能激活。有关更多信息,请参阅 了解机箱群集许可要求在机箱群集中的 SRX 系列设备上安装许可证验证机箱群集中的 SRX 系列设备上的许可证。有关许可证管理的一般信息,请参阅瞻博网络许可指南。有关详细信息,请参阅 SRX 系列服务网关 上的产品介绍,或联系您的瞻博网络客户团队或瞻博网络合作伙伴。

机箱群集的优势

  • 防止单个设备故障导致连接中断。

  • 将分支机构和远程站点链接连接到大型公司办公室时,可在设备之间提供高可用性。通过利用机箱群集功能,企业可以确保在设备或链路发生故障时保持连接。

机箱群集功能

机箱群集功能包括:

  • 弹性系统架构,为整个集群和多个数据包转发引擎提供一个主动控制平面。此体系结构显示群集的单个设备视图。

  • 在群集中的节点之间同步配置和动态运行时状态。

  • 监控物理接口,如果故障参数超过配置的阈值,则进行故障切换。

机箱群集模式

机箱群集可以配置为主动/主动或主动/被动模式。

  • Active/passive mode:在主动/被动模式下,传输流量会通过主节点,而备份节点仅在发生故障时使用。发生故障时,备份设备将成为主设备并接管所有转发任务。

  • Active/active mode:在主动/主动模式下,让中转流量始终通过群集的两个节点。

机箱群集的工作原理是什么?

将各个节点上的控制端口连接在一起,形成一个控制平面,该控制平面同步配置和内核状态,以促进接口和服务的高可用性。

各个节点上的数据平面通过交换矩阵端口连接,形成统一的数据平面。

创建机箱群集时,将各个节点上的控制端口连接在一起,形成一个控制平面,该控制平面同步配置和内核状态,以促进接口和服务的高可用性。

同样,各个节点上的数据平面通过交换矩阵端口连接,形成统一的数据平面。

交换矩阵链路支持管理跨节点流处理和管理会话冗余。

控制平面软件在主动或备份模式下运行。配置为机箱群集后,两个节点彼此备份,一个节点充当主设备,另一个作为辅助设备,确保在发生系统或硬件故障时进行有状态的进程和服务故障切换。如果主设备发生故障,辅助设备将接管流量处理。

数据平面软件在主动/主动模式下运行。在机箱群集中,会话信息会随着流量通过任一设备而更新,并通过交换矩阵链路在节点之间传输此信息,以确保在发生故障切换时不会丢弃已建立的会话。在主动/主动模式量可以在一个节点上进入集群,并从另一个节点出口。当设备加入群集时,它将成为该群集的一个节点。除了唯一的节点设置和管理 IP 地址外,群集中的节点共享相同的配置。

在任何给定时刻,集群都可能处于以下状态之一:保留、主要、辅助保留、辅助、不合格和禁用。任何事件(例如接口监控、SPU 监控、故障和手动故障切换)都可能触发状态转换。

IPv6 群集支持

除了现有的主动/被动(故障转移)机箱群集配置支持之外,运行 IP 版本 6 (IPv6) 的 SRX 系列防火墙还可以部署在主动/主动(故障转移)机箱群集配置中。接口可以配置 IPv4 地址和/或 IPv6 地址。通讯簿条目可以包括 IPv4 地址、IPv6 地址和域名系统 (DNS) 名称的任意组合。

机箱群集支持通用路由封装 (GRE) 隧道,用于通过内部接口 gr-0/0/0 路由封装的 IPv4/IPv6 流量。此接口由 Junos OS 在系统启动时创建,仅用于处理 GRE 隧道。请参阅 安全设备接口用户指南

SRX 机箱群集用例

企业和服务提供商网络在客户边缘网络层采用各种冗余和弹性方法。由于此层代表互联网的入口点或对等点,因此其稳定性和正常运行时间非常重要。客户交易信息、电子邮件、IP 语音 (VoIP) 和站点到站点流量都可以利用这个公共网络的单一入口点。如果站点到站点 VPN 是客户站点与总部站点之间唯一的互连,那么这种链接就变得更加重要。

传统上,使用具有谨慎配置的多个设备在此网络层提供冗余,结果喜忧参半。在这些配置中,企业依靠路由和冗余协议来实现高度可用和冗余的客户边缘。这些协议通常识别故障的速度很慢,并且通常不允许正确处理有状态流量所需的同步。鉴于通过边缘(进出互联网,或客户站点之间)的大量企业流量是有状态的,因此,在配置此网络层时,一个持续的挑战是确保在发生故障转移或恢复时会话状态不会丢失。

配置冗余设备的另一个挑战是需要配置、管理和维护具有不同配置的独立物理设备。同步这些配置也可能是一项挑战,因为随着安全措施的需求和复杂性的增加,配置不匹配的可能性也在增加。在安全环境中,不匹配的配置可能导致连接中断等简单问题,也可能导致全面安全故障等复杂且代价高昂的后果。客户边缘上的任何异常事件都可能影响正常运行时间,从而影响为客户提供服务的能力,或者可能影响保持客户数据安全的能力。

解决冗余客户边缘配置问题的方法是引入状态感知群集架构,该架构允许两个或多个设备作为单个设备运行。这种架构中的设备能够在所有设备之间共享会话信息,从而实现近乎瞬时的故障切换和有状态流量还原。在此领域,衡量成功与否的关键标准是群集是否能够保持活动会话状态的同时,进行故障转移和还原流量。

使用 示例:将 SRX 系列服务网关配置为全网状机箱群集 中所述的 SRX 机箱群集配置可减少系统停机时间。

有效群集架构中的设备也可以作为单个设备进行管理;共享一个控制平面此功能至关重要,因为它可以减少与管理多个设备相关的 OpEx。您可以通过单个管理点管理具有相同功能的多个设备,而不是管理和作具有不同配置和管理门户的单独设备。

最后,在群集配置中,设备能够监控活动接口以确定其服务状态。有效的集群会主动监控所有收入接口,如果检测到故障,则应故障切换至备份接口。这应该以近乎相同的时间间隔进行,以最大程度地减少服务故障(客户呼叫中断等)的影响。

机箱群集限制

SRX 系列防火墙具有以下机箱群集限制:

Chassis Cluster

  • 不支持组 VPN。

  • 在机箱群集中的 SRX 系列防火墙上,支持版本 5 和版本 8 的流监控。但是,不支持版本 9 的流监控。

  • 当 SRX 系列防火墙在机箱群集模式下运行并在 SPC 或 I/O 卡 (IOC) 中遇到任何 IA 芯片访问问题时,将激活一个小的 FPC 告警以触发冗余组故障切换。

Flow and Processing

  • 如果在 reth 接口上使用数据包捕获,则会创建两个文件,一个用于入口数据包,另一个用于基于 reth 接口名称的出口数据包。可以使用 Wireshark 或 Mergecap 等工具将这些文件合并到设备外部。

  • 如果在 reth 接口上使用端口镜像,则无法将 reth 接口配置为输出接口。您必须使用物理接口作为输出接口。如果使用 set forwarding-options port-mirroring family inet output 命令将 reth 接口配置为输出接口,则会显示以下错误消息。

    Port-mirroring configuration error. Interface type in reth1.0 is not valid for port-mirroring or next-hop-group config

  • 当 SRX 系列防火墙在机箱群集模式下运行并遇到任何 IA 芯片(IA 芯片是瞻博网络 SPC1 和 IOC1 的一部分。它会对 SPC1/IOC1 控制平面)有直接影响) SPC 或 I/O 卡 (IOC) 中的访问问题,会激活一个小的 FPC 告警以触发冗余组故障切换。

  • 在机箱群集中的 SRX 系列防火墙上,当配置两个逻辑系统时,扩展限制超过 13000,非常接近标准扩展限制 15000,收敛时间为 5 分钟。出现此问题的原因是,当路由数增加时,组播路由学习需要更多时间。

Interfaces

  • 在 lsq-0/0/0 接口上,不支持链路服务 MLPPP、MLFR 和 CRTP。

  • 在 lt-0/0/0 接口上,不支持用于 RPM 的 CoS。

  • 不支持 3G 拨号器接口。

  • 不支持 ae 接口上的队列。

Layer 2 Switching

在 SRX 系列防火墙故障切换时,第 2 层交换机上的接入点会重新启动,并且所有无线客户端都会断开连接 4 到 6 分钟。

MIBs

  • 不支持机箱群集 MIB。

IPv6

  • 冗余组 IPv6 目标不支持 IP 地址监控。

MIBs

  • 不支持机箱群集 MIB。

Nonstop Active Routing (NSR)

  • NSR 可以通过在备份路由路由引擎上运行路由协议进程 (RPD) 来保留接口和内核信息,并保存路由协议信息。但是,大多数 SRX 平台尚不支持 NSR。因此,在辅助节点上,没有现成的 RPD 守护程序。发生 RG0 故障切换后,新的 RG0 主设备将具有新的 RPD,需要与对等设备重新协商。

reth 接口支持流监控、数据包捕获和端口镜像等采样功能。

特定于平台 的机箱群集 行为

使用 功能浏览器 确认平台和版本对特定功能的支持。

使用下表查看您的平台特定于平台的行为。

平台

差异

SRX 系列

  • 支持机箱群集的 SRX5000 系列防火墙包括以下限制:

    • 您只能在主设备上收集屏幕统计数据。

    • 八队列配置不会反映在机箱群集界面上。

    • 对于每个 GTP 配置文件,APN 或 IMSI 过滤器必须限制为 600。筛选器的数量与 IMSI 前缀条目的数量成正比。例如,如果一个 APN 配置了两个 IMSI 前缀条目,则筛选器的数量为 2。

  • 支持机箱群集的 SRX4600 和 SRX5000 系列防火墙包括以下限制:

    • 在大型机箱群集配置中,如果使用的逻辑接口超过 1000 个,则建议在触发故障切换之前从默认等待时间增加群集检测信号计时器。在满容量实现中,我们建议通过修改heartbeat-threshold层次结构中的[edit chassis cluster]值将heartbeat-interval等待时间增加到 8 秒。

    • heartbeat-interval 值的heartbeat-threshold乘积定义故障转移之前的时间。默认值(heartbeat-threshold3 拍和 heartbeat-interval 1000 毫秒)生成 3 秒的等待时间。

    • 要更改等待时间,请修改选项值,使产品等于所需的设置。例如,将 heartbeat-threshold 设置为 8 并保留 ( heartbeat-interval 1000 毫秒)的默认值将产生 8 秒的等待时间。同样,将 设置为 heartbeat-threshold 4 和 设置为 heartbeat-interval 2000 毫秒也会产生 8 秒的等待时间。

    • 如果运行 LACP 进程 (lacpd) 的主节点经历正常或非正常重启,则新主节点上的 lacpd 可能需要几秒钟来启动或重置接口和状态机以恢复意外的同步结果。此外,在故障转移期间,当系统处理流量数据包或内部高优先级数据包(删除会话或重新建立任务)时,来自对等方(交换机)的中等优先级 LACP 数据包会在等待队列中被推送,从而导致进一步的延迟。

  • 支持机箱群集的 SRX300 系列、SRX1500防火墙、SRX1600防火墙、SRX2300防火墙和SRX4300防火墙具有以下限制:

    • 每个集群可配置的最大监控 IP 数为 64 个。

    • 在流模式下配置日志记录时,无法将日志发送到网络和安全管理器 (NSM)。无法发送日志,因为安全日志不支持配置 fxp0 接口的源 IP 地址,并且流模式下的安全日志目标无法通过 fxp0 接口路由。这意味着,您不能将安全日志服务器配置在与 fxp0 接口相同的子网中,并通过 fxp0 接口路由日志服务器。

    • 对于支持机箱群集的 SRX300 系列防火墙,该 reboot 参数不可用,因为群集中的设备会在带内群集升级 (ICU) 后自动重新启动。

变更历史表

是否支持某项功能取决于您使用的平台和版本。使用 功能浏览器 查看您使用的平台是否支持某项功能。

释放
描述
12.1X45
从 Junos OS 12.1X45-D10 及更高版本开始,reth 接口支持流监控、数据包捕获和端口镜像等采样功能。