Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Monitoreo de objetos de nivel global en un clúster de chasis

Hay varios tipos de objetos que supervisar a medida que trabaja con dispositivos configurados como clústeres de chasis, incluidos objetos y objetos de nivel global que son específicos de grupos de redundancia. En esta sección se describe la supervisión de objetos de nivel global.

Las líneas SRX5000 tienen una o más unidades de procesamiento de servicios (SPU) que se ejecutan en una tarjeta de procesamiento de servicios (SPC). Todos los servicios basados en flujo se ejecutan en la SPU. Otros dispositivos de la serie SRX tienen un proceso de reenvío basado en flujo, fluyedo, que reenvía paquetes a través del dispositivo.

Descripción del monitoreo de la SPU

El monitoreo de la SPU rastrea el estado de las SPU y del punto central (CP). El administrador de chasis en cada SPC monitorea las SPU y el punto central, y también mantiene el latido del corazón con el motor de enrutamiento chasis. En este sistema de monitoreo jerárquico, chassisd es el centro para la detección de fallas de hardware. La supervisión de SPU está habilitada de forma predeterminada.

La supervisión de SPU se admite en dispositivos de línea SRX4600 y SRX5000.

La SPU persistente y la falla de punto central en un nodo se considera una falla catastrófica del motor de reenvío de paquetes (PFE). En este caso, el PFE del nodo se deshabilita en el clúster mediante la reducción de las prioridades de los grupos de redundancia de x a 0.

  • Una falla de punto central activa la conmutación por error al nodo secundario. El PFE del nodo con errores, que incluye todas las SPC y todas las tarjetas de E/S (IOC), se reinicia automáticamente. Si el punto central secundario también ha fallado, el clúster no puede subir porque no hay ningún dispositivo principal. Solo se conmuta por error el plano de datos (grupo de redundancia x).

  • Una SPU única y con errores causa la conmutación por error del grupo de redundancia x al nodo secundario. Se reinician todas las IOC y SPC del nodo con errores y se conmuta el grupo de redundancia x al nodo secundario. La conmutación por error al nodo secundario es automática sin la necesidad de intervención del usuario. Cuando el nodo principal con errores (antiguo) tiene su componente con fallas restaurada, la conmutación por error se determina mediante la configuración de preferencia para el grupo de redundancia x. El intervalo para la detección de SPU muerta es de 30 segundos.

En las SPC SRX5400, SRX5600 y SRX5800, el motor de enrutamiento monitorea el estado del administrador de chasis. El administrador de chasis envía un mensaje de latido al motor de enrutamiento chasis cada segundo. Cuando el chasis del motor de enrutamiento detecta una pérdida de latido, inicia un ciclo de energía para toda la SPC. Si varias recuperaciones fallan en un período de tiempo determinado, el motor de enrutamiento apaga la SPC para evitar que afecte a todo el sistema.

Este evento activa una alarma que indica que se necesita una nueva unidad reemplazable en campo (FRU).

En la siguiente lista se describen las limitaciones para insertar una SPC en dispositivos SRX5400, SRX5600 y SRX5800 en modo de clúster de chasis:

  • El clúster de chasis debe estar en modo activo/pasivo antes y durante el procedimiento de inserción de SPC.

  • No se puede insertar una cantidad diferente de SPC en dos nodos diferentes.

  • Se debe insertar una nueva SPC en una ranura que sea mayor que la ranura de punto central.

    El punto central combinado existente no se puede cambiar a un punto central completo después de insertar la nueva SPC.

  • Durante un procedimiento de inserción de SPC, no se pueden modificar las configuraciones de IKE e IPsec.

    Una SPC no es insertable en caliente. Antes de insertar una SPC, el dispositivo debe estar desconectado. Después de insertar una SPC, el dispositivo debe reiniciarse.

  • Los usuarios no pueden especificar la SPU y la instancia de IKE para anclar un túnel.

  • Después de insertar una nueva SPC, los túneles existentes no pueden usar la potencia de procesamiento de la nueva SPC y redistribuirla a la nueva SPC.

Descripción de la supervisión fluida

La supervisión fluida realiza un seguimiento del estado del proceso fluyedo. La supervisión fluida está habilitada de forma predeterminada.

La falla de flujo persistente en un nodo se considera una falla catastrófica del motor de reenvío de paquetes (PFE). En este caso, el PFE del nodo se deshabilita en el clúster mediante la reducción de las prioridades de los grupos de redundancia de x a 0.

Un proceso de flujo con errores causa la conmutación por error del grupo de redundancia x al nodo secundario. La conmutación por error al nodo secundario es automática sin la necesidad de intervención del usuario. Cuando el nodo principal con errores (antiguo) tiene su componente con fallas restaurada, la conmutación por error se determina mediante la configuración de preferencia para el grupo de redundancia x.

Durante la SPC y las fallas de supervisión de flujo en un nodo local, el grupo de redundancia del plano de datos RG1+ conmuta por error al otro nodo que está en buen estado. Sin embargo, el plano de control RG0 no conmuta por error y sigue siendo principal en el mismo nodo que antes del error.

Descripción de la supervisión de cold-sync

El proceso de sincronización de los objetos de tiempo de ejecución del plano de datos (RTO) en el inicio de las SPU o fluyedos se denomina sincronización en frío. Cuando se sincronizan todos los RTO, se completa el proceso de sincronización en frío y la SPU o el flujo en el nodo están listos para asumir el control del nodo principal, si es necesario. El proceso de supervisión del estado de sincronización en frío de todas las SPU o de flujo en un nodo se denomina supervisión de sincronización en frío. Tenga en cuenta que cuando se habilita la preferencia, la supervisión de sincronización en frío impide que el nodo tome el rol principal hasta que se complete el proceso de sincronización en frío para las SPU o que fluya en el nodo. La supervisión de sincronización en frío está habilitada de forma predeterminada.

Cuando se reinicia el nodo, o cuando las SPU o el flujo vienen de vuelta de un error, la prioridad para todos los grupos de redundancia 1+ es 0. Cuando surge una SPU o fluye, intenta iniciar el proceso de sincronización en frío con su SPU espejo o fluye en el otro nodo.

Si este es el único nodo del clúster, las prioridades de todos los grupos de redundancia 1+ permanecen en 0 hasta que un nodo nuevo se una al clúster. Aunque la prioridad es 0, el dispositivo aún puede recibir y enviar tráfico a través de sus interfaces. Una prioridad de 0 implica que no se puede conmutar por error en caso de falla. Cuando un nuevo nodo se une al clúster, todas las SPU o flujo, a medida que suban, iniciarán el proceso de sincronización en frío con las SPU duplicadas o fluirán del nodo existente.

Cuando la SPU o el flujo de un nodo que ya está activo detecta la solicitud de sincronización en frío desde la SPU o fluye del nodo par, envía un mensaje al sistema que indica que el proceso de sincronización en frío está completo. Las SPU o el flujo del nodo recién unido publica un mensaje similar. Sin embargo, solo publican este mensaje después de que se aprendan todos los RTO y se complete la sincronización en frío. Cuando se reciben mensajes de finalización de todas las SPU o fluyen, la prioridad para los grupos de redundancia 1+ se mueve a la prioridad configurada en cada nodo si no hay otros errores de componentes supervisados, como interfaces. Esta acción garantiza que el nodo principal existente para grupos de redundancia 1+ siempre se mueva a la prioridad configurada primero. El nodo que se une al clúster más adelante se traslada a sus prioridades configuradas solo después de que todas sus SPU o flujos hayan completado su proceso de sincronización en frío. Esta acción, a su vez, garantiza que el nodo recién agregado esté listo con todos los DIRECTOR antes de que se haga cargo del rol principal.

Descripción de la supervisión de sincronización en frío con reemplazo o expansión de SPU

Si la puerta de enlace de servicios SRX5600 o SRX5800 forma parte de un clúster de chasis, cuando reemplace una tarjeta de procesamiento de servicios (SPC) por una SPC2 o una SPC3 en el dispositivo, debe conmutar por error todos los grupos de redundancia en un nodo.

Para dispositivos SRX5400, se admiten SPC2 y SPC3.

Durante este caso, se producen los siguientes eventos:

  • Cuando la SPC2 se instala en un nodo (por ejemplo, en el nodo 1, el nodo secundario), el nodo 1 se apaga para que se pueda instalar la SPC2.

  • Una vez que el nodo 1 se encienda y vuelva a unirse al clúster, la cantidad de SPU en el nodo 1 será mayor que la cantidad de SPU en el nodo 0, el nodo principal. Ahora, un nodo (nodo 0) todavía tiene una SPC antigua, mientras que el otro nodo tiene la nueva SPC2; Las SPC2 tienen cuatro SPU por tarjeta, y las SPC más antiguas tienen dos SPU por tarjeta.

    El proceso de sincronización en frío se basa en el número total de SPU del nodo 0. Una vez que esas SPU del nodo 1 correspondientes a las SPU del nodo 0 hayan completado la sincronización en frío, el nodo 1 declarará la sincronización en frío completada. Dado que las SPU adicionales del nodo 1 no tienen las SPU de nodo 0 correspondientes, no hay nada que sincronizar y la conmutación por error del nodo 0 al nodo 1 no causa ningún problema.

    La funcionalidad de monitoreo de SPU monitorea todas las SPU e informes si hay algún error de SPU.

    Por ejemplo, suponga que ambos nodos originalmente tienen 2 SPC existentes y que sustituyó ambas SPC2 por SPC2 en el nodo 1. Ahora tenemos 4 SPU en el nodo 0 y 8 SPU en el nodo 1. La función de supervisión de SPU monitorea las 4 SPU en el nodo 0 y 8 SPU en el nodo 1. Si alguna de esas 8 SPU fallaron en el nodo 1, la supervisión de SPU seguirá reportando al proceso del protocolo de redundancia de servicios de Juniper (jsrpd) que hay una falla de SPU. El proceso jsrpd controla la agrupación en clústeres de chasis.

  • Una vez que el nodo 1 está listo para la conmutación por error, puede iniciar toda la conmutación por error del grupo de redundancia manualmente al nodo 1. El nodo 0 se cerrará para reemplazar su SPC con la SPC2. Después del reemplazo, los nodos 0 y 1 tendrán exactamente la misma configuración de hardware.

Una vez que el nodo 0 se encienda y vuelva a unirse al clúster, el sistema funcionará como un clúster de chasis normal.

A partir de Junos OS versión 15.1X49-D120, cuando el proceso de sincronización en frío aún está en curso en el dispositivo de la serie SRX en el clúster de chasis, y si el vínculo de control está apagado, se espera un retraso (de 30 segundos) antes de que el nodo tome la transición del estado secundario al estado principal.