Alta disponibilidad de múltiples nodos
RESUMEN Obtenga información sobre la solución de alta disponibilidad multinodo y cómo puede usarla en modelos de despliegue simples y confiables. Actualmente, admitimos dos nodos en cualquier implementación de alta disponibilidad de multinodo.
Visión general
La continuidad del negocio es un requisito importante de la red moderna. El tiempo de inactividad de incluso unos pocos segundos puede causar interrupciones e inconvenientes, además de afectar a los gastos operativos y de capital. Las redes modernas también tienen centros de datos distribuidos en múltiples áreas geográficas. En tales escenarios, lograr una alta disponibilidad puede ser muy difícil.
Los firewalls de la serie SRX de Juniper Networks® admiten una nueva solución, Multinode High Availability, para abordar los requisitos de alta disponibilidad de los centros de datos modernos. En esta solución, tanto el plano de control como el plano de datos de los dispositivos participantes (nodos) están activos al mismo tiempo. Por lo tanto, la solución proporciona resistencia entre chasis.
Los dispositivos participantes podrían estar ubicados o separados físicamente en áreas geográficas u otras ubicaciones, como diferentes salas o edificios. Tener nodos con alta disponibilidad en todas las ubicaciones geográficas garantiza un servicio resistente. Si un desastre afecta a una ubicación física, la alta disponibilidad de multinodo puede conmutar por error a un nodo de otra ubicación física, lo que garantiza la continuidad.
- Beneficios de la alta disponibilidad multinodo
- Alta disponibilidad de multinodo activo/de backup
- Alta disponibilidad de multinodo activo/activo
- Características soportadas
- Compatibilidad con sistemas lógicos y sistemas de inquilinos
- Escenarios de despliegue
- ¿En qué se diferencia la alta disponibilidad multinodo del clúster de chasis?
- Glosario de alta disponibilidad multinodo
Beneficios de la alta disponibilidad multinodo
-
Reducción de gastos de capital y operativos: elimina la necesidad de una red conmutada alrededor del complejo del firewall y la necesidad de una conectividad directa de capa 2 (L2) entre los nodos
-
Flexibilidad de red: proporciona una mayor flexibilidad de red al admitir alta disponibilidad en segmentos de red conmutados y de capa 3 (L3).
-
Solución resistente con estado: admite el plano de control activo y el plano de datos al mismo tiempo en ambos nodos.
-
Continuidad empresarial y recuperación ante desastres: maximiza la disponibilidad y aumenta la redundancia dentro de los centros de datos y las geografías y entre ellos.
-
Actualizaciones fluidas: admite diferentes versiones de Junos OS en dos nodos para garantizar actualizaciones fluidas entre las versiones de Junos OS y también permite ejecutar dos versiones diferentes de Junos.
Admitimos dos nodos en la solución de alta disponibilidad multinodo.
Alta disponibilidad de multinodo activo/de backup
Admitimos la alta disponibilidad de multinodo activa/de respaldo en:
-
SRX5800, SRX5600 SRX5400 con SPC3, IOC3, IOC4, SCB3, SCB4 y RE3 en Junos OS versión 20.4R1
-
SRX4600, SRX4200, SRX4100 y SRX1500 en Junos OS versión 22.3R1
-
SRX2300 y SRX1600 en Junos OS versión 23.4R1.
-
SRX4300 y SRX1600 en Junos OS versión 24.2R1.
-
Firewalls virtuales vSRX3.0 para las siguientes plataformas de nube pública y privada:
- KVM (máquina virtual basada en kernel), VMWare ESXi en Junos OS versión 22.3R1
- Amazon Web Services (AWS) en Junos OS versión 22.3R1
- Nube de Microsoft Azure en Junos OS versión 23.4R1
Alta disponibilidad de multinodo activo/activo
A partir de , puede operar la alta disponibilidad de varios nodos en modo activo-activo compatible con varios grupos de redundancia de servicios (SRG). Hay compatibilidad con varios SRG disponibles en los siguientes dispositivos de seguridad:
- SRX5400, SRX5600 y SRX5800 con SPC3, IOC3, IOC4, SCB3, SCB4 y RE3 en Junos OS versión 22.4R1.
- SRX4600, SRX4200, SRX4100, SRX2300, SRX1600, SRX1500 y vSRX en Junos OS versión 23.4R1.
- SRX4300 en Junos OS versión 24.2R1.
Características soportadas
Los firewalls de la serie SRX con alta disponibilidad multinodo admiten el firewall y servicios de seguridad avanzados, como seguridad de aplicaciones, seguridad de contenido, sistema de prevención de intrusiones (IPS), autenticación de usuario de firewall, NAT y ALG.
Para obtener la lista completa de las características compatibles con la alta disponibilidad de multinodo, consulte Explorador de características.
La alta disponibilidad de múltiples nodos no admite el modo transparente de alta disponibilidad (HA)
Compatibilidad con sistemas lógicos y sistemas de inquilinos
Los sistemas lógicos para firewalls serie SRX permiten particionar un único dispositivo en contextos seguros y Un sistema de inquilinos divide lógicamente el firewall físico en un firewall lógico independiente y aislado.
Un sistema de inquilinos particiona lógicamente el firewall físico en un firewall lógico separado y aislado. Aunque son similares a los sistemas lógicos, los sistemas de inquilinos tienen una escalabilidad mucho mayor y menos características de enrutamiento.
Los firewalls de la serie SRX en configuración de alta disponibilidad multinodo admiten sistemas lógicos y sistemas de inquilinos en el grupo de redundancia de servicios 0 (SRG0).
El comportamiento de una configuración de alta disponibilidad de varios nodos con firewalls de la serie SRX que ejecutan sistemas lógicos es el mismo que el de una configuración en la que los nodos de la serie SRX no ejecutan sistemas lógicos. No hay diferencia en los eventos que desencadenan una conmutación por error de nodo. En concreto, si la supervisión de interfaz está habilitada en SRG0 y se produce un error en un vínculo asociado con un único sistema lógico (que se está supervisando), el dispositivo conmuta por error a otro nodo. Esta conmutación por error se produce a través de anuncios de preferencia de ruta en la configuración de alta disponibilidad de multinodo.
Antes de configurar los sistemas lógicos o de inquilinos, debe configurar la alta disponibilidad de varios nodos. Cada nodo del programa de instalación de alta disponibilidad debe tener una configuración idéntica. Asegúrese de que el nombre, el perfil y las características de seguridad correspondientes o las interfaces de los sistemas lógicos o de inquilinos sean los mismos. Todas las configuraciones del sistema lógico o de inquilinos se sincronizan y replican entre los dos nodos.
Utilice los grupos de configuración de Junos para configurar características y funciones, y sincronice la configuración mediante la [edit system commit peers-synchronize]
opción de la configuración de alta disponibilidad de varios nodos. Consulte Sincronización de configuración entre nodos de alta disponibilidad multinodo.
Cuando utilice firewalls de la serie SRX con sistemas lógicos en una alta disponibilidad de varios nodos, debe comprar e instalar el mismo número de licencias para cada nodo de la configuración.
Para obtener más información, consulte Guía del usuario de sistemas lógicos y sistemas de inquilinos para dispositivos de seguridad.
Escenarios de despliegue
La alta disponibilidad multinodo admite dos firewalls de la serie SRX que se presentan como nodos independientes para el resto de la red. Los nodos están conectados a una infraestructura adyacente que pertenece a la misma red o a redes diferentes, todo dependiendo del modo de implementación. Estos nodos se pueden combinar o separar en distintas geografías. Los nodos participantes se respaldan entre sí para garantizar una conmutación por error rápida y sincronizada en caso de fallo del sistema o del hardware.
Admitimos los siguientes tipos de modelos de despliegue de red para la alta disponibilidad multinodo:
- Modo de ruta (todas las interfaces conectadas mediante una topología de capa 3)
Figura 1: Modo de capa 3
- Modo de puerta de enlace predeterminado (todas las interfaces conectadas mediante una topología de capa 2) utilizado en entornos más tradicionales. Despliegue común de redes DMZ donde los dispositivos de firewall actúan como puerta de enlace predeterminada para los hosts y aplicaciones del mismo segmento.
Figura 2: Modo de puerta de enlace predeterminado
- Modo híbrido (una o más interfaces se conectan mediante una topología de capa 3 y una o más interfaces están conectadas mediante una topología de capa 2)
Figura 3: Modo híbrido
- Despliegue en la nube pública
Figura 4: Implementación en la nube pública (ejemplo: AWS)
¿En qué se diferencia la alta disponibilidad multinodo del clúster de chasis?
Un clúster de chasis opera en un entorno de red de capa 2 y requiere dos vínculos entre los nodos (vínculo de control y vínculo de estructura). Estos enlaces conectan ambos nodos a través de VLAN dedicadas utilizando cableado back-to-back o a través de fibra oscura. Los vínculos de control y los vínculos de estructura utilizan puertos físicos dedicados en el firewall de la serie SRX.
La alta disponibilidad de varios nodos utiliza un vínculo lógico cifrado entre chasis (ICL). La ICL conecta los nodos a través de una ruta enrutada en lugar de una red dedicada de capa 2. Esta ruta enrutada puede usar uno o más puertos de ingresos para obtener la mejor resistencia, incluso es posible dedicar su propia instancia de enrutamiento a estos puertos y rutas para garantizar un aislamiento total que maximice la resistencia de la solución.
La figura 5 y la figura 6 muestran dos arquitecturas.
La Tabla 1 enumera las diferencias entre las dos arquitecturas
Parámetros | Clúster de chasis | Multinodo Alta disponibilidad |
---|---|---|
Topología de red | Los nodos se conectan a un dominio de difusión | Los nodos se conectan a un enrutador, a un dominio de difusión o a una combinación de ambos.
|
Entorno de red | Capa 2 |
|
Enfoque de cambio de tráfico | El firewall de la serie SRX envía GARP al conmutador | Cambio mediante la selección de ruta IP por parte de un enrutador par de capa 3 o GARP de capa 2 desde un firewall de la serie SRX a un conmutador de capa 2 de par
|
Nube pública | No compatible | Soportado |
Función de enrutamiento dinámico | Proceso de enrutamiento activo en la serie SRX donde el plano de control (RG0) está activo | Proceso de enrutamiento activo en cada firewall de la serie SRX que participa en Multinode High Availability |
Conexión entre firewalls de la serie SRX |
|
Vínculo entre chasis (ruta de capa 3) |
Conectividad / Geo-redundancia | Requiere un tramo de capa 2 dedicado entre los nodos de la serie SRX para el vínculo de control y el vínculo de estructura. | Utiliza cualquier ruta enrutada entre los nodos para el vínculo Interchassis. |
Monitoreo de IP para detectar fallas en la red |
|
|
Glosario de alta disponibilidad multinodo
Comencemos por familiarizarnos con los términos de alta disponibilidad de multinodo que se usan en esta documentación.
Descripción del término | |
---|---|
estado activo/activo (SRG0) | Todos los servicios/flujos de seguridad se inspeccionan en cada nodo y se realiza una copia de seguridad en el otro nodo. Los flujos de seguridad deben ser simétricos. |
estado activo/de respaldo (SRG1+) | SRG1+ permanece activo en un nodo en un momento dado y permanece en estado de copia de seguridad en el otro nodo. SRG1+ en el estado de copia de seguridad está listo para hacerse cargo del tráfico del SRG1 activo en caso de que se produzca una falla. |
Prioridad del dispositivo | El valor de prioridad determina si un nodo puede actuar como nodo activo en una configuración de alta disponibilidad de varios nodos. El nodo con un valor numérico más bajo tiene una prioridad más alta y, por lo tanto, actúa como el nodo activo mientras que el otro nodo actúa como el nodo de respaldo. |
Preferencia sobre dispositivos | El comportamiento preventivo permite que el dispositivo con la prioridad más alta (valor numérico más bajo) se reanude como nodo activo después de recuperarse de un error. Si necesita utilizar un dispositivo específico en Alta disponibilidad multinodo como nodo activo, debe habilitar el comportamiento preventivo en ambos dispositivos y asignar un valor de prioridad de dispositivo para cada dispositivo. |
Conmutación por error | Una conmutación por error ocurre cuando un nodo detecta un error (hardware/software, etc.) y el tráfico pasa al otro nodo con estado. Como resultado, el nodo de respaldo en un sistema de alta disponibilidad asume la tarea del nodo activo cuando el nodo activo falla. |
dirección IP flotante o dirección IP de sondeo de actividad | Una dirección IP que se mueve de un nodo activo al nodo de copia de seguridad durante la conmutación por error en una configuración de alta disponibilidad de varios nodos. Este mecanismo permite a los clientes comunicarse con los nodos utilizando una sola dirección IP. |
Alta disponibilidad/resiliencia |
Capacidad de un sistema para eliminar puntos únicos de falla para garantizar operaciones continuas durante un período prolongado de tiempo. |
Vínculo entre chasis | Vínculo basado en IP (vínculo lógico) que conecta nodos a través de una red enrutada en una implementación de alta disponibilidad de varios nodos. El vínculo ICL normalmente está enlazado a las interfaces de circuito cerrado para las implementaciones más flexibles. La conectividad puede ser cualquier ruta enrutada o conmutada, siempre y cuando la conectividad sea accesible entre las dos direcciones IP. El dispositivo de seguridad utiliza la ICL para sincronizar y mantener la información de estado y para controlar escenarios de conmutación por error del dispositivo. |
Cifrado de vínculos entre chasis | El cifrado de vínculos proporciona privacidad de datos para los mensajes que atraviesan la red. Como el enlace ICL transmite datos privados, es importante cifrar el enlace. Debe cifrar la ICL mediante VPN IPsec. |
monitoreo (BFD) | Monitoreo de uno o más enlaces mediante detección de reenvío bidireccional (BFD). La supervisión de BFD desencadena un cambio de ruta de enrutamiento o una conmutación por error del sistema, según la configuración del sistema. |
monitoreo (IP) | Monitoreo de una dirección IP confiable y el estado del sistema en caso de pérdida de comunicación con el nodo par. |
Monitoreo (ruta) | Método que utiliza ICMP para comprobar la accesibilidad de la dirección IP. El intervalo predeterminado para las sondas de ping ICMP es de 1 segundo. |
Monitoreo (sistema) | Supervisión de recursos e infraestructuras clave de hardware y software mediante la activación de la conmutación por error cuando se detecta un error en un nodo. |
sondeo | Mecanismo utilizado para intercambiar mensajes entre nodos activos y de respaldo en la configuración de alta disponibilidad. Los mensajes determinan el estado y el estado de la aplicación en cada nodo individual. |
objeto en tiempo real (RTO) | Paquete de carga especial que contiene la información necesaria para sincronizar los datos de un nodo a otro. |
Detección de cerebro dividido (también conocida como detección del plano de control o detección de conflicto de actividad) | Evento en el que la ICL entre dos nodos de alta disponibilidad multinodo está inactiva y ambos nodos inician una sonda de determinación de actividad (sonda de cerebro dividido). En función de la respuesta a la sonda, se desencadena la conmutación por error posterior a un nuevo rol |
grupo de redundancia de servicios (SRG) | Unidad de conmutación por error que incluye y administra una colección de objetos en los nodos participantes. El SRG de un nodo cambia al otro nodo cuando se detecta una conmutación por error. |
SRG0 | Administra todos los servicios sin estado del plano de control, como firewall, NAT y ALG. SRG0 está activo en todos los nodos participantes y maneja flujos de seguridad simétricos. |
SRG1+ | Administra el servicio de estado del plano de control (VPN IPsec o IP virtuales en modo de puerta de enlace híbrida o predeterminada). |
sincronización | Proceso en el que los controles y los estados del plano de datos se sincronizan en los nodos. |
dirección IP virtual (VIP) | Las direcciones IP virtuales en modo híbrido o de puerta de enlace predeterminada se utilizan para la determinación de la actividad y la aplicación en el lado de la conmutación en una configuración de alta disponibilidad multinodo. La IP virtual es controlada por el SRG1+. |
dirección MAC virtual (VMAC) | (Para implementaciones de puertas de enlace híbridas y predeterminadas). Dirección MAC virtual asignada dinámicamente a la interfaz en el nodo activo que mira hacia el lado de conmutación. |
Ahora que estamos familiarizados con las características y la terminología de la alta disponibilidad de multinodo, procedamos a comprender cómo funciona la alta disponibilidad de multinodo.
Cómo funciona la alta disponibilidad multinodo
Admitimos una configuración de dos nodos para la solución de alta disponibilidad multinodo.
En una configuración de alta disponibilidad multinodo, se conectan dos firewalls de la serie SRX a enrutadores adyacentes ascendentes y descendentes (para implementaciones de capa 3), enrutadores y conmutadores (implementación híbrida) o conmutadores (implementación de puerta de enlace predeterminada) mediante las interfaces de ingresos.
Los nodos se comunican entre sí mediante un vínculo entre chasis (ICL). El vínculo ICL utiliza la conectividad de capa 3 para comunicarse entre sí, esta comunicación puede tener lugar a través de una red enrutada (capa 3) o una ruta de capa 2 conectada directamente. Se recomienda enlazar la ICL a la interfaz de circuito cerrado y tener más de un enlace físico (LAG/LACP) para garantizar la diversidad de rutas para obtener la máxima resistencia.
La alta disponibilidad multinodo funciona en modo activo/activo para el plano de datos y en modo activo/de respaldo para los servicios del plano de control. El firewall de la serie SRX activo aloja la dirección IP flotante y dirige el tráfico hacia ella mediante la dirección IP flotante
La alta disponibilidad multinodo opera en:
- Modo activo/activo (SRG0) para los servicios de seguridad
- Modo activo/de copia de seguridad (SRG1 y superior) para seguridad y servicios del sistema
Las direcciones IP flotantes controladas por SRG1 o superior se mueven entre los nodos. SRG1+ activo aloja y controla la dirección IP flotante. En escenarios de conmutación por error, esta dirección IP "flota" a otro SRG1 activo según la configuración, el estado del sistema o las decisiones de monitoreo de ruta. El SRG1+ recién activo puede asumir la función de un SRG1 ahora en espera y comienza a responder a las solicitudes entrantes.
La Figura 7, la Figura 8 y la Figura 9 muestran implementaciones en los modos de capa 3, híbrida y puerta de enlace predeterminada.
En esta topología, dos firewalls de la serie SRX forman parte de una configuración de alta disponibilidad de múltiples nodos. La configuración tiene conectividad de capa 3 entre los firewalls de la serie SRX y los enrutadores vecinos. Los dispositivos se ejecutan en redes físicas independientes de capa 3 y funcionan como dos nodos independientes. Los nodos que se muestran en la ilustración están ubicados en la topología. Los nodos también se pueden separar geográficamente.
En una implementación típica de puerta de enlace predeterminada, los hosts y servidores de una LAN se configuran con una puerta de enlace predeterminada del dispositivo de seguridad. Por lo tanto, el dispositivo de seguridad debe alojar una dirección IP virtual (VIP) que se mueva entre nodos en función de la actividad. La configuración de los hosts permanece estática y la conmutación por error de los dispositivos de seguridad es perfecta desde la perspectiva de los hosts.
Debe crear rutas estáticas o enrutamiento dinámico en los firewalls de la serie SRX para llegar a otras redes que no estén conectadas directamente.
En el modo híbrido, un firewall de la serie SRX utiliza una dirección VIP en el lado de la capa 2 para atraer tráfico hacia él. Opcionalmente, puede configurar el ARP estático para la VIP mediante la dirección VMAC para asegurarse de que no haya cambios en la dirección IP durante la conmutación por error
Entendamos ahora los componentes y la funcionalidad de Multinode High Availability en detalle.
- Grupos de redundancia de servicios
- Determinación de la actividad y aplicación
- Resistencia y conmutación por error
- Cifrado de vínculo de interchasis (ICL)
Grupos de redundancia de servicios
Un grupo de redundancia de servicios (SRG) es una unidad de conmutación por error en una configuración de alta disponibilidad de varios nodos. Hay dos tipos de SRG:
- SRG0: administra el servicio de seguridad desde la capa 4 hasta la capa 7, excepto los servicios VPN IPsec. El SRG0 funciona en modo activo en ambos nodos en cualquier momento. En SRG0, cada sesión de seguridad debe atravesar el nodo en un flujo simétrico, La copia de seguridad de estos flujos está totalmente sincronizada con el estado del otro nodo,
- SRG1+: administra los servicios IPsec y las IP virtuales para el modo de puerta de enlace híbrida y predeterminada, y realiza una copia de seguridad en el otro nodo. El SRG1 funciona en modo activo en un nodo y en nodo de respaldo en otro nodo.
La figura 10 muestra SRG0 y SRG1 en una configuración de alta disponibilidad de múltiples nodos.
La figura 11 muestra SRG0 y SRG1+ en una configuración de alta disponibilidad multinodo.
A partir de Junos OS versión 22.4R1, puede configurar la alta disponibilidad de varios nodos para que funcione en modo activo-activo compatible con SRG1 múltiples (SRG1+). En este modo, algunas SRG permanecen activas en un nodo y algunas SRG permanecen activas en otro nodo. Un SRG en particular siempre funciona en modo de copia de seguridad activa; Funciona en modo activo en un nodo y en modo de copia de seguridad en otro nodo. En este caso, ambos nodos pueden tener los servicios de estado de reenvío SRG1 activos. Cada nodo tiene un conjunto diferente de direcciones IP flotantes asignadas a SRG1+.
A partir de Junos OS versión 22.4R1, puede configurar hasta 20 SRG en una configuración de alta disponibilidad multinodo.
La Tabla 3 explica el comportamiento de los SRG en una configuración de alta disponibilidad multinodo.
servicios administrados | del Grupo de redundancia de servicios relacionados (SRG) | funcionan en | tipo de sincronización | cuando el nodo activo falla Opciones de | configuración |
---|---|---|---|---|---|
SRG0 | Administra el servicio de seguridad L4-L7 excepto VPN IPsec. | Modo activo/activo | Sincronización de estado de los servicios de seguridad | El tráfico procesado en el nodo con errores pasará al nodo en buen estado con estado. |
|
SRG1+ | Administra direcciones IPsec e IP virtuales con los servicios de seguridad asociados | Modo activo/de copia de seguridad | Sincronización de estado de los servicios de seguridad | El tráfico procesado en el nodo con errores pasará al nodo en buen estado con estado. |
|
Cuando configure las opciones de supervisión (BFD, IP o interfaz) en SRG1+, se recomienda no configurar la opción de apagado por error en SRG0.
A partir de Junos OS versión 23.4R1, la configuración de alta disponibilidad multinodo funciona en modo combinado. No es necesario reiniciar el sistema al agregar o eliminar ninguna configuración de SRG (SRG0 o SRG1+).
Determinación de la actividad y aplicación
En una configuración de alta disponibilidad multinodo, la actividad se determina en el nivel de servicio, no en el nivel de nodo. El estado activo/de respaldo está en el nivel SRG y el tráfico se dirige hacia el SRG activo. SRG0 permanece activo en ambos nodos, mientras que SRG1 puede permanecer activo o en estado de respaldo en cada nodo
Si prefiere que un nodo determinado se haga cargo como nodo activo en el arranque, puede realizar una de las siguientes acciones:
- Configure los enrutadores ascendentes para que incluyan preferencias para la ruta donde se encuentra el nodo.
- Configure la prioridad de actividad.
- Permita que el nodo con un ID de nodo superior (en caso de que las dos opciones anteriores no estén configuradas) asuma el rol activo.
En una configuración de alta disponibilidad de varios nodos, ambos firewalls de la serie SRX anuncian inicialmente la ruta de la dirección IP flotante a los enrutadores ascendentes. No hay una preferencia específica entre las dos rutas anunciadas por los firewalls de la serie SRX. Sin embargo, el enrutador puede tener sus propias preferencias en una de las rutas dependiendo de las métricas configuradas.
La Figura 12 representa la secuencia de eventos para la determinación de la actividad y la aplicación de la actividad.
- En el arranque, los dispositivos entran en el estado de espera y comienzan a sondear continuamente. Los dispositivos utilizan la dirección IP flotante (dirección IP de origen de sondeo de actividad) como dirección IP de origen y las direcciones IP de los enrutadores ascendentes como dirección IP de destino para la sonda de determinación de actividad.
-
El enrutador que aloja la dirección IP de destino de la sonda responde al firewall de la serie SRX que está disponible en su ruta de enrutamiento preferida. En el ejemplo siguiente, SRX-1 obtiene la respuesta del enrutador ascendente.
Figura 13: Determinación de la actividad y aplicación -
SRX-1 se promueve a sí mismo al papel activo desde que obtuvo la respuesta de la sonda. SRX-1 comunica su cambio de rol al otro dispositivo y asume el rol activo.
-
Después de determinar la actividad, el nodo activo (SRX-1):
- Aloja la dirección IP flotante que se le ha asignado.
- Anuncia la ruta de acceso de alta preferencia a los vecinos del BGP adyacentes.
- Continúa anunciando la ruta de preferencia activa (más alta) para todas las rutas remotas y locales para atraer el tráfico.
- Notifica el estado del nodo activo al otro nodo a través de la ICL.
-
El otro dispositivo (SRX-2) deja de sondear y asume la función de copia de seguridad. El nodo de copia de seguridad anuncia la prioridad predeterminada (inferior), lo que garantiza que los enrutadores ascendentes no reenvíen ningún paquete al nodo de copia de seguridad.
El módulo de alta disponibilidad multinodo agrega rutas de señal activas y de respaldo para el SRG a la tabla de enrutamiento cuando el nodo se mueve al rol activo. En caso de fallas de nodo, la ICL deja de funcionar y el nodo activo actual libera su función activa y elimina la ruta de señal activa. Ahora, el nodo de copia de seguridad detecta la condición a través de sus sondeos y pasa al rol activo. La preferencia de ruta se intercambia para dirigir todo el tráfico hacia el nuevo nodo activo.
El conmutador en el anuncio de preferencia de ruta forma parte de las políticas de enrutamiento configuradas en los firewalls de la serie SRX. Debe configurar la directiva de enrutamiento para incluir la ruta de señal activa con la if-route-exists
condición.
- Para implementaciones de puerta de enlace predeterminadas
- Para implementaciones híbridas
- Prioridad de actividad y preferencia
- Configuración de las opciones de la sonda de actividad
Para implementaciones de puerta de enlace predeterminadas
Si ambos nodos se inician al mismo tiempo, el sistema de alta disponibilidad multinodo utiliza el valor de prioridad configurado de un SRG para determinar la actividad. La aplicación de la actividad tiene lugar cuando el nodo con un SRG1+ activo posee la dirección IP virtual (VIP) y la dirección MAC virtual (VMAC). Esta acción activa el ARP gratuito (GARP) hacia los conmutadores de ambos lados y da como resultado la actualización de las tablas MAC en los conmutadores.
Para implementaciones híbridas
La aplicación de la actividad tiene lugar en el lado de la capa 3, cuando la ruta de señal configurada impone la actividad con los anuncios de ruta correspondientes. En el lado de la capa 2, el firewall de la serie SRX activa un ARP gratuito (GARP) en la capa del conmutador y posee las direcciones VIP y VMAC
Cuando se produce la conmutación por error y el nodo de copia de seguridad antiguo pasa al rol activo, la preferencia de ruta se intercambia para dirigir todo el tráfico al nuevo nodo activo.
Prioridad de actividad y preferencia
Configure la prioridad de preferencia (1-254) para SRG1+. Debe configurar el valor de preferencia en ambos nodos. La opción de preferencia garantiza que el tráfico siempre vuelva al nodo especificado, cuando el nodo se recupera de una conmutación por error.
Puede configurar la prioridad de actividad y la preferencia para un SRG1+ como en el siguiente ejemplo:
[edit] user@host# show chassis high-availability services-redundancy-group 1 { preemption; activeness-priority 200; }
Consulte Configuración de la alta disponibilidad de varios nodos en una red de capa 3 para ver el ejemplo completo de la configuración.
Mientras los nodos puedan comunicarse entre sí a través de la ICL, se respeta la prioridad de actividad.
Configuración de las opciones de la sonda de actividad
A partir de Junos OS 22.4R1, puerta de enlace predeterminada (conmutación) y en implementaciones híbridas de alta disponibilidad multinodo, opcionalmente puede configurar parámetros de sondeo de actividad mediante las siguientes instrucciones:
[edit] user@host# set chassis high-availability services-redundancy-group 1 activeness-probe multiplier <> user@host# set chassis high-availability services-redundancy-group 1 activeness-probe minimal-interval <>
El intervalo de sondeo establece el período de tiempo entre los sondeos enviados a las direcciones IP de destino. Puede establecer el intervalo de la sonda en 1000 milisegundos.
El valor multiplicador determina el período de tiempo, después del cual el nodo de copia de seguridad pasa al estado activo, si el nodo de copia de seguridad no recibe respuesta a los sondeos de actividad del nodo par.
El valor predeterminado es 2, el valor mínimo es 2 y el máximo es 15.
Ejemplo: si configura el valor multiplicador en dos, el nodo de copia de seguridad pasará al estado activo si no recibe una respuesta a la solicitud de sondeo de actividad del nodo par después de dos segundos.
Puede configurar multiplier
y minimal-interval
en implementaciones híbridas y de conmutación.
En las implementaciones en modo híbrido, si ha configurado los detalles de IP de destino del sondeo para determinar la actividad (mediante la activeness-probe dest-ip
instrucción), no configure los multiplier
valores y minimal-interval
. Configure estos parámetros cuando utilice el sondeo de actividad basado en VIP.
Resistencia y conmutación por error
La solución de alta disponibilidad multinodo admite redundancia a nivel de servicio. La redundancia a nivel de servicio minimiza el esfuerzo necesario para sincronizar el plano de control en los nodos.
Una vez que la configuración de alta disponibilidad de multinodo determina la actividad, negocia el estado de alta disponibilidad (HA) posterior a través de la ICL. El nodo de copia de seguridad envía sondeos ICMP utilizando la dirección IP flotante. Si la ICL está activa, el nodo obtiene la respuesta a su sonda y permanece como nodo de reserva. Si la ICL no funciona y no hay respuesta de sonda, el nodo de copia de seguridad pasa al nodo activo.
El SRG1 del nodo de copia de seguridad anterior ahora pasa al estado activo y continúa funcionando sin problemas. Cuando se produce la transición, la dirección IP flotante se asigna al SRG1 activo. De esta manera, la dirección IP flota entre los nodos activos y de respaldo y permanece accesible para todos los hosts conectados. Por lo tanto, el tráfico continúa fluyendo sin ninguna interrupción.
Los servicios, como VPN IPsec, que requieren estados de plano de control y plano de datos se sincronizan en todos los nodos. Cada vez que se produce un error en un nodo activo para esta función de servicio, tanto el plano de control como el plano de datos conmutan por error al nodo de copia de seguridad al mismo tiempo.
Los nodos utilizan los siguientes mensajes para sincronizar datos:
- Mensajes de aplicación de control de motor de enrutamiento a motor de enrutamiento
- Mensajes relacionados con la configuración del motor de enrutamiento
- Mensajes RTO del plano de datos
Cifrado de vínculo de interchasis (ICL)
En la alta disponibilidad multinodo, los nodos activos y de reserva se comunican entre sí mediante un vínculo entre chasis (ICL) conectado a través de una red enrutada o conectado directamente. La ICL es un enlace IP lógico y se establece utilizando direcciones IP que son enrutables en la red.
Los nodos utilizan la ICL para sincronizar los estados del plano de control y del plano de datos entre ellos. La comunicación ICL podría pasar por una red compartida o no confiable y los paquetes enviados a través de ICL pueden atravesar una ruta en la que no siempre se confía. Por lo tanto, debe proteger los paquetes que atraviesan la ICL cifrando el tráfico mediante estándares IPsec.
IPsec protege el tráfico estableciendo un túnel de cifrado para la ICL. Cuando se aplica el cifrado de vínculo de alta disponibilidad, el tráfico de alta disponibilidad (HA) fluye entre los nodos solo a través del túnel seguro y cifrado. Sin el cifrado de vínculo HA, la comunicación entre los nodos puede no ser segura.
Para cifrar el vínculo de alta disponibilidad (HA) para la ICL:
- Instale el paquete IKE de Junos en el firewall de la serie SRX mediante el siguiente comando:
request system software add optional://junos-ike.tgz
. - Configure un perfil VPN para el tráfico de alta disponibilidad y aplique el perfil para ambos nodos. El túnel IPsec negociado entre los firewalls de la serie SRX utiliza el protocolo IKEv2.
-
Asegúrese de haber incluido la instrucción ha-link-encryption en la configuración de VPN IPsec. Ejemplo: user@host# set security ipsec vpn vpn-name ha-link-encryption.
Recomendamos lo siguiente para configurar una ICL:
- Usar puertos y redes que tengan menos probabilidades de estar saturados
- No utilizar los puertos dedicados de alta disponibilidad (puertos de control y de estructura, si están disponibles en el firewall de la serie SRX)
-
Enlazar la ICL a la interfaz de circuito cerrado (lo0) o a una interfaz Ethernet agregada (ae0) y tener más de un enlace físico (LAG/LACP) que garantice la diversidad de rutas para obtener la máxima resistencia.
-
Puede utilizar un puerto Ethernet de ingresos en los firewalls de la serie SRX para configurar una conexión ICL. Asegúrese de separar el tráfico de tránsito en las interfaces de ingresos del tráfico de alta disponibilidad (HA).
Consulte Configuración de la alta disponibilidad de varios nodos para obtener más detalles.
Cifrado de vínculos basado en PKI para ICL
A partir de Junos OS versión 22.3R1, admitimos el cifrado de vínculos basado en PKI para el vínculo entre chasis (ICL) en alta disponibilidad multinodo. Como parte de esta compatibilidad, ahora puede generar y almacenar objetos PKI específicos del nodo, como pares de claves locales, certificados locales y solicitudes de firma de certificados en ambos nodos. Los objetos son específicos de los nodos locales y se almacenan en ubicaciones específicas de ambos nodos.
Los objetos locales del nodo permiten distinguir entre los objetos PKI que se usan para el cifrado ICL y los objetos PKI utilizados para el túnel VPN IPsec creado entre dos extremos.
Puede utilizar los siguientes comandos que se ejecutan en el nodo local para trabajar con objetos PKI específicos del nodo.
Generación de un par de claves privada/pública para un nodo local | |
Generación e inscripción de un certificado digital local en un nodo local |
|
Borrar certificados específicos del nodo | |
Muestra certificados locales específicos del nodo y solicitudes de certificados. |
En su dispositivo de seguridad en Alta disponibilidad de multinodo, si ha configurado la opción de reinscripción automática y si la ICL deja de funcionar en el momento del desencadenamiento de la reinscripción, ambos dispositivos comenzarán a inscribir el mismo certificado por separado con el servidor de CA y descargarán el mismo archivo CRL. Una vez que la alta disponibilidad de varios nodos restablece la ICL, la configuración utiliza sólo un certificado local. Debe sincronizar los certificados del nodo activo al nodo de copia de seguridad mediante el user@host> request security pki sync-from-peer
comando del nodo de copia de seguridad.
Si no sincroniza los certificados, el problema de falta de coincidencia de certificados entre los nodos del mismo nivel persiste hasta la próxima reinscripción.
Opcionalmente, puede habilitar TPM (módulo de plataforma segura) en ambos nodos antes de generar pares de claves en los nodos. Consulte Uso del Módulo de plataforma segura para enlazar secretos en dispositivos de la serie SRX.
Detección y prevención del cerebro dividido
La detección de cerebro dividido o conflicto de actividad ocurre cuando la ICL entre dos nodos de alta disponibilidad multinodo está inactiva y ambos nodos ya no pueden comunicarse entre sí para recopilar el estado de nodo par.
Sondeo de cerebro dividido basado en ICMP
Considere un escenario en el que dos dispositivos de la serie SRX forman parte de la configuración de alta disponibilidad de multinodo. Consideremos SRX-1 como nodo local y nodo remoto SRX-2. El nodo local está actualmente en rol activo y aloja una dirección IP flotante para dirigir el tráfico hacia él. El enrutador ascendente tiene una ruta de mayor prioridad para el nodo local.
Cuando la ICL entre los nodos deja de funcionar, ambos nodos inician una sonda de determinación de actividad (sonda ICMP). Los nodos utilizan la dirección IP flotante (dirección IP de determinación de actividad) como dirección IP de origen y las direcciones IP de los enrutadores ascendentes como dirección IP de destino para los sondeos.
Caso 1: Si el nodo activo está activo
- El enrutador ascendente, que aloja la dirección IP de destino de la sonda, recibe las sondas ICMP de ambos nodos.
- El enrutador ascendente responde solo al nodo activo; porque su configuración tiene una ruta de mayor preferencia para el nodo activo
- El nodo activo conserva el rol activo.
Si el nodo activo está inactivo:
- El nodo remoto reinicia los sondeos de determinación de actividad.
- El enrutador que aloja la dirección IP de destino de la sonda ha perdido su ruta de preferencia más alta (del nodo activo anterior) y responde al nodo remoto.
- El resultado de la sonda es un éxito para el nodo remoto y el nodo remoto pasa al estado activo.
- Como se demostró en los casos anteriores, las sondas de determinación de actividad y la configuración de una preferencia de ruta más alta en el enrutador ascendente aseguran que un nodo permanezca siempre en el rol activo y evitan que se produzca una división del cerebro.
Sondeo de cerebro dividido basado en BFD
En Junos OS versión 23.4R1, admitimos el sondeo de cerebro dividido basado en BFD.
La falla de Interchassis Link (ICL) a menudo se puede atribuir a dos factores clave: interrupciones de la red o configuraciones inconsistentes. Puede utilizar la sonda de actividad para determinar el nodo que puede asumir la función activa para cada SRG1+. Según el resultado de la sonda, uno de los nodos pasa al estado activo y esta acción evita el escenario de cerebro derramado.
Con el sondeo de cerebro dividido basado en BFD, ahora puede tener un control más granular sobre las sondas, ya que puede definir la interfaz, el intervalo mínimo y los multiplicadores.
El sondeo de cerebro dividido basado en BFD, el sondeo comienza inmediatamente después de que se configura un SRG y comienza a funcionar. En el sondeo de cerebro dividido basado en ICMP predeterminado, el sondeo comienza solo después de que el enlace ICL deja de funcionar. En comparación, el sondeo de cerebro dividido basado en BFD es mucho más proactivo. El sondeo se inicia directamente después de una configuración SRG, lo que garantiza una respuesta más rápida para evitar escenarios de cerebro dividido.
Para configurar la sonda de actividad para implementaciones de puerta de enlace predeterminadas: utilice la interfaz de dirección IP virtual principal en ambos nodos (local y par) para configurar la sonda de actividad. La IP de destino es del nodo par y la IP de origen es del nodo local. Ambos VIP deben tener el mismo valor de índice.
# concept_cgp_lb1_kzb__table_wbx_pb1_kzb muestra la diferencia entre el sondeo basado en ICMP y BFD para el cerebro dividido.
Parámetros | Sondeo basado en ICMP | Sondeo basado en BFD |
Tipo de sonda | Paquete ICMP | Paquete BFD, BFD de un solo salto |
Intervalo mínimo | 1000 ms | Intervalo BFD mínimo del firewall serie SRX. Por ejemplo: Firewalls de línea SRX5000 con SPC3, el intervalo es de 100 ms. |
Sondeos de nodo de copia de seguridad SRG | Sí | Sí |
Sondeos de nodo activo SRG | No | Sí |
Inicio del sondeo | Solo cuando ICL se cae. |
Después de configurar SRG. |
SRG cerebro dividido resolviéndose cuando ICL abajo | No es posible | Posible |
Opciones de configuración |
show chassis high-availability services-redundancy-group 1 activeness-probe dest-ip { 10.254.0.1; src-ip 10.253.0.1; minimum-interval 1000; multiplier 3; } |
show chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness { source-ip 21.21.21.1; destination-ip 21.21.21.2; interface xe-0/0/1.0; minimum-interval 300; multiplier 3; } |
La figura 16 muestra la topología de ejemplo. Dos firewalls de la serie SRX están conectados a enrutadores adyacentes en el lado de confianza y no confianza que forman una vecindad BGP. Un vínculo lógico cifrado entre chasis (ICL) conecta los nodos a través de una red enrutada. Los nodos se comunican entre sí mediante una dirección IP enrutable (dirección IP flotante) a través de la red.
Consideremos SRX-1 como un nodo local y SRX-2 como un nodo remoto. El nodo local está actualmente en rol activo y el enrutador ascendente tiene una ruta de mayor prioridad para el nodo local.
Ambos nodos inician una sonda de determinación de actividad (sonda basada en BFD) tan pronto como las SRG comienzan a funcionar. Los nodos utilizan la dirección IP flotante como dirección IP de origen y las direcciones IP de los enrutadores ascendentes como dirección IP de destino para los sondeos.
Para el sondeo de cerebro dividido basado en BFD, usted debe:
- Configure direcciones IP de origen y destino coincidentes para el mismo SRG en ambos nodos.
- Configurar
activeness-remote-priority
yactiveness-priority
determinar el nodo activo como resultado del sondeo de cerebro dividido.
La Tabla 6 muestra cómo la configuración de alta disponibilidad multinodo resuelve la situación del cerebro dividido con sondeo basado en BFD cuando la ICL está inactiva. En función de los estados del nodo y de los resultados de la sonda, el sistema de alta disponibilidad multinodo selecciona el nodo para que asuma la función activa.
En este ejemplo, asumimos que SRG1 del nodo 1 tiene la mayor prioridad de actividad.
Estado del nodo 1 | Estado de sondeo del nodo 1 | Estado del nodo 2 | Estado de sondeo del nodo 2 | Transición del nodo al estado activo SRG1 |
Activo | Abajo | Inelegible | Sin sondeo | Nodo 1 |
Activo | Hacia arriba | Copia de seguridad | Hacia arriba | Nodo 1 |
Activo | Hacia arriba | Activo | Hacia arriba | Nodo 1 (desempate) |
Copia de seguridad | Abajo | Inelegible | Sin sondeo | Nodo 1 |
Copia de seguridad | Hacia arriba | Copia de seguridad | Hacia arriba | Nodo 1 (desempate) |
Copia de seguridad | Hacia arriba | Activo | Hacia arriba | Nodo 2 |
Inelegible | Sin sondeo | Inelegible | Sin sondeo | Ninguno de los dos nodos |
Inelegible | Sin sondeo | Copia de seguridad | Abajo | Nodo 2 |
Inelegible | Sin sondeo | Activo | Abajo | Nodo 2 |
Configuración de ejemplo
Nodo 1:
set chassis high-availability services-redundancy-group 1 activeness-priority 1 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness destination-ip 21.21.21.2 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness source-ip 21.21.21.1 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness interface xe-0/0/1.0 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness minimum-interval 300 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness multiplier 3
Nodo 2:
set chassis high-availability services-redundancy-group 1 activeness-priority 200 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness destination-ip 21.21.21.1 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness source-ip 21.21.21.2 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness interface xe-0/0/1.0 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness minimum-interval 300 set chassis high-availability services-redundancy-group 1 activeness-probe bfd-liveliness multiplier 3
Verificación
Utilice el
(Sondeo basado en BFD)show chassis high-availability services-redundancy-group 1
comando para ver el tipo de sonda de cerebro dividido configurada en el dispositivo.user@host> show chassis high-availability services-redundancy-group 1 .. Split-brain Prevention Probe Info: DST-IP: 21.21.21.2 SRC-IP: N/A Routing Instance: default Type: BFD Probe Interval: 200ms Multiplier: 3 Status: RUNNING Result: REACHABLE Reason: N/A ..
user@host> show chassis high-availability services-redundancy-group 1 .. Split-brain Prevention Probe Info: DST-IP: 21.0.0.1 SRC-IP: 51.0.0.1 Routing Instance: default Type: ICMP Probe Status: NOT RUNNING Result: N/A Reason: N/A ..
-
Utilice el comando para ver si el
show bfd session
estado de la sonda basada en BFD.user@host> show bfd session Detect Transmit Address State Interface Time Interval Multiplier 22.0.0.2 Up 0.300 0.100 3 21.21.21.2 Up xe-0/0/1.0 0.300 0.100 3 1 sessions, 1 clients Cumulative transmit rate 0.5 pps, cumulative receive rate 0.0 pps
En el ejemplo, puede observar que el sondeo de cerebro dividido basado en BFD se ejecuta para la interfaz xe-0/0/1.0.
-
Utilice el
show chassis high-availability services-redundancy-group 1
comando para obtener los detalles de los sondeos basados en BFD.user@host> show chassis high-availability services-redundancy-group 1 SRG failure event codes: BF BFD monitoring IP IP monitoring IF Interface monitoring CP Control Plane monitoring Services Redundancy Group: 1 Deployment Type: ROUTING Status: ACTIVE Activeness Priority: 200 Preemption: ENABLED Process Packet In Backup State: NO Control Plane State: READY System Integrity Check: N/A Failure Events: NONE Peer Information: Peer Id: 1 Status : N/A Health Status: SRG NOT CONFIGURED Failover Readiness: UNKNOWN Activeness Remote Priority: 100