Supervisión de objetos de nivel global en un clúster de chasis
Use el Explorador de características para confirmar la compatibilidad de la plataforma y el lanzamiento de características específicas.
Revise la sección Comportamiento de objetos de supervisión específicos de la plataforma para obtener notas relacionadas con su plataforma.
Existen varios tipos de objetos que se deben supervisar mientras trabaja con dispositivos configurados como clústeres de chasis, incluidos los objetos de nivel global y los objetos específicos de los grupos de redundancia. En esta sección se describe la supervisión de objetos de nivel global.
Descripción del monitoreo de SPU
La supervisión de SPU realiza un seguimiento del estado de las SPU y del punto central (CP). El administrador del chasis de cada SPC supervisa las SPU y el punto central, y también mantiene el latido con el chasis del motor de enrutamiento. En este sistema de monitoreo jerárquico, chassisd es el centro para la detección de fallas de hardware. La supervisión de SPU está habilitada de forma predeterminada.
La falla persistente de SPU y punto central en un nodo se considera una falla catastrófica del motor de reenvío de paquetes (PFE). En este caso, el PFE del nodo se deshabilita en el clúster reduciendo las prioridades de los grupos de redundancia x a 0.
Una falla de punto central desencadena la conmutación por error al nodo secundario. El PFE del nodo con errores, que incluye todas las SPC y todas las tarjetas de E/S (IOC), se reinicia automáticamente. Si el punto central secundario también ha fallado, el clúster no puede aparecer porque no hay ningún dispositivo principal. Solo se conmuta por error el plano de datos (grupo de redundancia x).
Una sola SPU con errores provoca la conmutación por error del grupo de redundancia x al nodo secundario. Todas las IOC y SPC del nodo con errores se reinician y el grupo de redundancia x conmuta por error al nodo secundario. La conmutación por error al nodo secundario es automática sin necesidad de intervención del usuario. Cuando se restaura el nodo principal con errores (anterior), la configuración preferencial para el grupo de redundancia x determina la conmutación por recuperación (anterior). El intervalo para la detección de SPU muerta es de 30 segundos.
Este evento activa una alarma, lo que indica que se necesita una nueva unidad reemplazable en campo (FRU).
Descripción de la supervisión fluida
La supervisión fluida realiza un seguimiento del estado del proceso fluido. La supervisión por flujo está habilitada de forma predeterminada.
La falla fluyente persistente en un nodo se considera una falla catastrófica del motor de reenvío de paquetes (PFE). En este caso, el PFE del nodo se deshabilita en el clúster reduciendo las prioridades de los grupos de redundancia x a 0.
Un proceso con flujo fallido provoca la conmutación por error del grupo de redundancia x al nodo secundario. La conmutación por error al nodo secundario es automática sin necesidad de intervención del usuario. Cuando se restaura el nodo principal con errores (anterior), la configuración preferencial para el grupo de redundancia x determina la conmutación por recuperación (anterior).
Durante los errores de supervisión de SPC y flujo en un nodo local, el grupo de redundancia del plano de datos RG1+ conmuta por error al otro nodo que está en buen estado. Sin embargo, el plano de control RG0 no conmuta por error y sigue siendo primario en el mismo nodo que antes del error.
Descripción de la supervisión de sincronización en frío
El proceso de sincronización de los objetos de tiempo de ejecución del plano de datos (RTO) al inicio de las SPU o con flujo se denomina sincronización en frío. Cuando todos los RTO están sincronizados, el proceso de sincronización en frío se ha completado y la SPU o fluyó en el nodo está lista para hacerse cargo del nodo principal, si es necesario. El proceso de monitoreo del estado de sincronización en frío de todas las SPU o fluidas en un nodo se denomina monitoreo de sincronización en frío. Tenga en cuenta que cuando la preferencia está habilitada, la supervisión de sincronización en frío impide que el nodo asuma el rol principal hasta que se complete el proceso de sincronización en frío para las SPU o fluya en el nodo. La supervisión de sincronización en frío está habilitada de forma predeterminada.
Cuando se reinicia el nodo o cuando las SPU o el flujo vuelven a aparecer de un error, la prioridad para todos los grupos de redundancia 1+ es 0. Cuando aparece una SPU o flowd, intenta iniciar el proceso de sincronización en frío con su SPU espejo o fluyó en el otro nodo.
Si este es el único nodo del clúster, las prioridades para todos los grupos de redundancia 1+ permanecen en 0 hasta que un nuevo nodo se une al clúster. Aunque la prioridad es 0, el dispositivo aún puede recibir y enviar tráfico a través de sus interfaces. Una prioridad de 0 implica que no puede conmutar por error en caso de fallo. Cuando un nuevo nodo se une al clúster, todas las SPU o fluyen, a medida que surjan, iniciarán el proceso de sincronización en frío con las SPU reflejadas o fluyentes del nodo existente.
Cuando la SPU o flujo de un nodo que ya está activo detecta la solicitud de sincronización en frío de la SPU o el flujo del nodo par, publica un mensaje en el sistema indicando que el proceso de sincronización en frío se ha completado. Las SPU o flujo del nodo recién unido publican un mensaje similar. Sin embargo, publican este mensaje solo después de que se hayan aprendido todos los RTO y se haya completado la sincronización en frío. Al recibir mensajes de finalización de todas las SPU o fluyentes, la prioridad para los grupos de redundancia 1+ se mueve a la prioridad configurada en cada nodo si no hay otros fallos de los componentes monitoreados, como las interfaces. Esta acción garantiza que el nodo principal existente para los grupos de redundancia 1+ siempre se mueva primero a la prioridad configurada. El nodo que se une al clúster se mueve posteriormente a sus prioridades configuradas solo después de que todas sus SPU o flujo hayan completado su proceso de sincronización en frío. Esta acción, a su vez, garantiza que el nodo recién agregado esté listo con todos los RTO antes de que asuma el rol principal.
Descripción del monitoreo de sincronización en frío con reemplazo o expansión de SPU
Si el firewall SRX5600 o SRX5800 forma parte de un clúster de chasis, cuando sustituya una tarjeta de procesamiento de servicios (SPC) por una SPC2 o una SPC3 en el dispositivo, debe conmutar por error todos los grupos de redundancia a un nodo.
Los sucesos siguientes tienen lugar durante este escenario:
Cuando la SPC2 se instala en un nodo (por ejemplo, en el nodo 1, el nodo secundario), el nodo 1 se cierra para que se pueda instalar la SPC2.
Una vez que el nodo 1 se enciende y se vuelve a unir al clúster, el número de SPU en el nodo 1 será mayor que el número de SPU en el nodo 0, el nodo principal. Ahora, un nodo (nodo 0) todavía tiene una SPC antigua mientras que el otro nodo tiene la nueva SPC2; Las SPC2 tienen cuatro SPU por tarjeta, y las SPC más antiguas tienen dos SPU por tarjeta.
El proceso de sincronización en frío se basa en el número total de SPU del nodo 0. Una vez que las SPU del nodo 1 correspondientes a las SPU del nodo 0 hayan completado la sincronización en frío, el nodo 1 declarará completada la sincronización en frío. Dado que las SPU adicionales en el nodo 1 no tienen las SPU del nodo 0 correspondientes, no hay nada que sincronizar y la conmutación por error del nodo 0 al nodo 1 no causa ningún problema.
La funcionalidad de monitoreo de SPU monitorea todas las SPU e informa si hay alguna falla de SPU.
Por ejemplo, supongamos que ambos nodos tienen originalmente 2 SPC existentes y que ha reemplazado ambas SPC por SPC2 en el nodo 1. Ahora tenemos 4 SPUs en el nodo 0 y 8 SPUs en el nodo 1. La función de monitoreo de SPU monitorea las 4 SPU en el nodo 0 y las 8 SPU en el nodo 1. Si alguna de esas 8 SPU falló en el nodo 1, la supervisión de SPU seguirá informando al proceso del Protocolo de redundancia de servicios de Juniper (jsrpd) que hay una falla de SPU. El proceso jsrpd controla la agrupación en clústeres del chasis.
Una vez que el nodo 1 esté listo para la conmutación por error, puede iniciar manualmente toda la conmutación por error del grupo de redundancia al nodo 1. El nodo 0 se cerrará para reemplazar su SPC por la SPC2. Después del reemplazo, el nodo 0 y el nodo 1 tendrán exactamente la misma configuración de hardware.
Una vez que el nodo 0 se enciende y se vuelve a unir al clúster, el sistema funcionará como un clúster de chasis normal.
Cuando el proceso de sincronización en frío aún está en curso en el firewall de la serie SRX en el clúster de chasis, y si el vínculo de control no funciona, se espera un retraso (de 30 segundos) antes de que el nodo realice la transición del estado secundario al estado primario.
Comportamiento de los objetos de supervisión específicos de la plataforma
Use el Explorador de características para confirmar la compatibilidad de la plataforma y el lanzamiento de características específicas.
Use la tabla siguiente para revisar los comportamientos específicos de la plataforma en su plataforma.
| Plataforma |
Diferencia |
|---|---|
| Serie SRX |
|