EN ESTA PÁGINA
Opciones de monitoreo de alta disponibilidad de múltiples nodos
Tipos de monitoreo
Una detección de fallas de alta disponibilidad monitorea tanto el sistema, el software y el hardware para detectar fallas internas. El sistema también puede monitorear problemas de conectividad de red o vincular la conectividad utilizando monitoreo de interfaz, monitoreo de ruta BFD y monitoreo de IP para detectar la accesibilidad de objetivos más lejanos.
La Tabla 1 proporciona detalles sobre los diferentes tipos de monitoreo utilizados en la alta disponibilidad de múltiples nodos.
Tipo de Montitoring | ¿Qué es el | alcance del tipo de detección | ? |
---|---|---|---|
Monitoreo de BFD | Supervisa la accesibilidad al siguiente salto examinando la capa de vínculo junto con el vínculo real. |
|
|
Monitoreo de IP | Monitorea la conectividad con hosts o servicios ubicados más allá de las interfaces conectadas directamente o los próximos saltos. |
|
|
Monitoreo de interfaz | Examina si la capa de vínculo está operativa o no. |
Errores de vínculo |
|
En la alta disponibilidad de varios nodos, cuando la supervisión detecta un error de conectividad en un host o servicio, marca la ruta afectada como inactiva/no disponible y marca los grupos de rutas de servicio (SRG) correspondientes en el nodo afectado como no elegibles. Los SRG afectados pasarán con estado al otro nodo sin causar ninguna interrupción en el tráfico.
Para evitar que se pierda tráfico, la Alta disponibilidad de multinodo toma las siguientes precauciones:
- Modo de capa 3: las rutas se volverán a dibujar para que el tráfico se redirija correctamente
- Puerta de enlace predeterminada o modo híbrido: el nuevo nodo activo para el SRG envía un GARP (ARP gratuito) al conmutador conectado para garantizar el reenrutamiento del tráfico
- Escenarios de error de alta disponibilidad de múltiples nodos
- Error de nodo
- Error de red/conectividad
Escenarios de error de alta disponibilidad de múltiples nodos
En las secciones siguientes se describen los posibles escenarios de error: cómo se detecta un error, qué acción de recuperación tomar y, si corresponde, el impacto en el sistema causado por el error.Error de nodo
Error de hardware
- Causa: un componente de hardware defectuoso o un problema del entorno, como un corte de energía.
- Detección: en alta disponibilidad multinodo
- No se puede acceder al dispositivo/nodo afectado
- El estado de SRG1 cambia a
INELIGIBLE
en el nodo con error de hardware.
- Impacto : el tráfico conmutará por error al otro nodo (si está en buen estado), como se muestra en la figura 1. .
Figura 1: Error de hardware en la alta disponibilidad
de varios nodos
- Recuperación: la recuperación del error tiene lugar cuando se borra el error de hardware del chasis (por ejemplo, reemplazar o reparar el componente de hardware defectuoso).
- Resultados: compruebe el estado mediante los siguientes comandos:
Error del sistema/software
- Causa: falla en el proceso o servicio de software, o problemas con el sistema operativo.
- Detección: en alta disponibilidad multinodo
- No se puede acceder al dispositivo/nodo afectado
- Cambia el estado del sistema a
INELIGIBLE
en el nodo afectado con error del sistema o software.
- Impacto: el tráfico conmutará por error al otro nodo si está en buen estado, como se muestra en la figura 2.
Figura 2: Error de software en la alta disponibilidad
de varios nodos
- Recuperación: se recupera de forma automática y elegante de la interrupción una vez que se soluciona el problema. El nodo de copia de seguridad que ha asumido la función activa sigue activo. El nodo anteriormente activo permanece como nodo de reserva.
- Resultados: compruebe el estado mediante el comando mostrar detalles de información de alta disponibilidad del chasis .
Error de red/conectividad
- Error de interfaces físicas (vínculo)
- Error de vínculo entre chasis (ICL)
- El nodo permanece en estado aislado
Error de interfaces físicas (vínculo)
- Causa: una falla en las interfaces podría deberse a interrupciones del equipo de red, a interrupciones con el cable físico o a configuraciones inconsistentes.
- Detección: en alta disponibilidad multinodo
- No se puede acceder al dispositivo/nodo afectado.
- El estado de SRG1 cambia a
INELIGIBLE
en el nodo afectado con error de red o conectividad (si el monitor de interfaz está configurado). La conectividad de la ruta también se puede detectar con BFD o monitoreo de IP y desencadenar un evento basado en la acción configurada.
- Impacto: un cambio en el estado del vínculo de las interfaces desencadena una conmutación por error. El nodo de copia de seguridad asume la función activa y los servicios que se ejecutaban en el nodo con errores se migran a otro nodo, como se muestra en la figura 3.
Figura 3: Error de
interfaz
-
Configuración: para configurar la supervisión de BFD y la supervisión de interfaz, utilice la siguiente instrucción de configuración:
set chassis high-availability services-redundancy-group <1> monitor bfd-liveliness <source-ip-address> <destination-ip-address> routing-instance <routing-instance-name> <single-hop| multihop> <interface-name>
set chassis high-availability services-redundancy-group <1> monitor interface <interface-name>
Todos los enlaces críticos para el flujo de tráfico deben ser monitoreados.
Ejemplo de pago: Configure la alta disponibilidad de varios nodos en una red de capa 3 para obtener detalles completos de la configuración.
- Recuperación: se recupera cuando se repara o reemplaza la interfaz defectuosa. Después de que se recupera la falla de red o conectividad, SRG1 pasa del estado INELEGIBLE al estado BACKUP. El nuevo nodo activo continúa anunciando mejores métricas para su enrutador ascendente y procesa el tráfico.
- Resultados: compruebe el estado mediante los siguientes comandos:
-
Para obtener información sobre la configuración de interfaces, consulte Configuración de alta disponibilidad de múltiples nodos en una red de capa 3, Configuración de alta disponibilidad de múltiples nodos en una implementación híbrida, Configuración de alta disponibilidad de múltiples nodos en una implementación de puerta de enlace predeterminada, Solución de problemas de interfaces.
Error de vínculo entre chasis (ICL)
- Causa: un fallo en ICL podría deberse a interrupciones de la red o a configuraciones incoherentes.
- Detección: en la alta disponibilidad de varios nodos, los nodos no pueden comunicarse entre sí e inician una sonda de determinación de actividad (sonda ICMP).
- Impacto: en un sistema de alta disponibilidad multinodo, ICL conecta nodos activos y de respaldo; si la ICL deja de funcionar, ambos dispositivos notarán este cambio e iniciarán la sonda de actividad (sonda ICMP). La sonda de actividad se realiza para determinar el nodo que puede asumir el rol activo para cada SRG1+. Según el resultado de la sonda, uno de los nodos pasa al estado activo.
Como se muestra en la Figura 4, la ICL entre SRX-1 y SRX-2 desciende. Ambos dispositivos no pueden comunicarse entre sí y comienzan a enviar sondas de actividad al enrutador ascendente. Dado que SRX-1 se encuentra en la ruta preferida más alta en la configuración del enrutador, asume un rol activo y continúa procesando el tráfico y anuncia una ruta de preferencia más alta. El otro asume el papel de copia de seguridad.
Figura 4: Error de ICL en alta disponibilidadde múltiples nodos
-
Configuración: para configurar el sondeo de actividad, utilice la siguiente instrucción de configuración:
set chassis high-availability services-redundancy-group <1> activeness-probe <destination-ip-address> routing-instance <routing-instance-name>
Realice el proceso de pago Configuración de alta disponibilidad de múltiples nodos en una red de capa 3 para obtener detalles completos de la configuración.
- Resultados: compruebe el estado mediante los siguientes comandos:
show chassis high-availability information detail
show chassis high-availability services-redundancy-group 1
-
Verifique la respuesta de paquete ICMP desde el enrutador ascendente usando la opción ping. Ejemplo:
ping <activeness-probe-dest-ip> source <activeness-probe-source-ip> routing-instance <routing-instance-name>
.
-
Recuperación: una vez que uno de los nodos asume el rol activo, Alta disponibilidad multinodo reinicia el proceso de sincronización en frío y resincroniza los servicios del plano de control (VPN IPSec). La información de estado de SRG se vuelve a intercambiar entre los nodos.
El nodo permanece en estado aislado
- Causa: en una configuración de alta disponibilidad de varios nodos, el nodo permanece aislado después de un reinicio y las interfaces asociadas continúan inactivas cuando:
-
El vínculo entre chasis (ICL) no tiene conectividad con el otro nodo después de arrancar hasta que se complete la sincronización en frío
y
-
La
shutdown-on-failure
opción está configurada en SRG0Nota:La causa anterior también podría ocurrir si el otro dispositivo está fuera de servicio.
-
- Detección: el estado SRG0 se muestra como
ISOLATED
en la salida del comando. -
Recuperación: el nodo se recupera automáticamente cuando el otro nodo se conecta y la ICL puede intercambiar información del sistema, o cuando se elimina la
shutdown-on-failure
instrucción y se confirma la configuración.Utilice el
delete chassis high-availability services-redundancy-group 0 shutdown-on-failure
para quitar la instrucción.Si la solución anterior no es adecuada para su entorno, puede usar la
install-on-failure-route
opción. En esta opción, la configuración de alta disponibilidad de multinodo utiliza una ruta de señal definida para un manejo más elegante de la situación anterior mediante las opciones de política de enrutamiento, que es similar al enfoque de ruta de señal activa y ruta de señal de respaldo disponibles en SRG1+.
Monitoreo de ruta flexible
A partir de la versión 23.4R1 de Junos OS, agregamos nuevas mejoras para las siguientes funciones de supervisión de rutas existentes:
- Monitoreo de IP
- Monitoreo de BFD
- Monitoreo de interfaz
Las mejoras agregan un control más granular para la función de monitoreo de rutas al:
- Extensión del monitoreo para SRG0 además de SRG1+
- Agrupación de funciones de supervisión
- Supervisión de soporte técnico basada en la dirección asociada a una ruta de acceso de grupo de redundancia de servicio (SRG)
- Agregar pesos asociados con cada función de monitoreo
Al agrupar las funciones relacionadas, el sistema puede procesarlas como una unidad, lo que puede conducir a una computación y utilización de recursos más eficientes.
- Objetos de supervisión SRG
- Configuración de supervisión de ruta
- Comprobar la configuración de los objetos de supervisión
Objetos de supervisión SRG
Vamos a entender el concepto de supervisión de objetos con la siguiente ilustración.

Puede configurar las opciones de supervisión por grupo de redundancia de servicio. Es decir, si se produce un error en elementos específicos del SRG, ese SRG puede conmutar por error al otro nodo. Cada SRG incluye uno o más objetos de supervisión.
Las funciones de monitoreo disponibles en los objetos de monitoreo son: vida BFD, monitoreo de interfaz y monitoreo de IP. Cada una de estas características tiene un valor de umbral y atributos de peso asociados.
Dentro de un objeto de monitor, cada vez que el objeto en particular no puede activar una conmutación por error como resultado de la supervisión de IP/interfaz/BFD, el sistema considera el evento como error de supervisión. El software agrega el recuento en función del peso del objeto fallido.
Cuando el recuento supera el valor umbral de IP/interfaz/BFD, el sistema agrega el recuento al valor umbral del objeto de supervisión principal.
Cuando la suma de los umbrales de todos los objetos de supervisión enlazados al SRG es igual o mayor que el valor de umbral configurado en el SRG, el sistema desencadena un error de monitor para ese SRG. SRG conmuta por error al otro nodo.
Configuración de supervisión de ruta
Consideremos el siguiente ejemplo para la topología que se muestra en la figura 6. En esta configuración, estamos configurando las opciones de monitoreo de ruta para SRG1 en el dispositivo del Nodo 2.

En este ejemplo, para configurar las opciones de supervisión de rutas:
- Utilice una interfaz Ethernet agregada (ae) para el vínculo entre chasis (ICL) y utilice interfaces xe-1/0/x para conectarse a enrutadores vecinos.
- Cree dos objetos de monitor "red-A" y "red-B". Tanto los objetos de monitor de red A como los de red B incluyen todas las direcciones IP e interfaces configuradas entre el dispositivo de la serie SRX y los enrutadores vecinos.
- Configure BFD para supervisar las rutas vecinas.
- Configure la supervisión de IP para supervisar las rutas que no están conectadas directamente al SRG1.
- Configure la supervisión de la interfaz en vínculos conectados directamente o en próximos saltos.
En la tabla siguiente se muestran los pesos de ejemplo y las asignaciones de umbral.
Supervisar objetos |
BFD |
IP |
Interfaz |
Umbral de objeto de monitor |
Umbral SRG |
|||
---|---|---|---|---|---|---|---|---|
Umbral |
Peso |
Umbral |
Peso |
Umbral |
Peso |
|
|
|
red-A | 100 |
50 |
100 |
50 (10.10.10.1, 10.20.20.1, 10.30.30.1) |
100 |
25 (xe-1/0/1 y xe-1/0/2) 50 (ae0 y ae1) |
100 |
100 |
red-B | 100 |
50 |
100 |
50 (10.11.11.1, 10.12.12.1, 10.13.13.1) | 100 |
25 (xe-1/0/3 y xe-1/0/4) 50 (AE2 y AE3) |
200 |
- Puede configurar hasta 10 objetos de supervisión por SRG.
- Puede configurar la supervisión de SRG como en Junos OS 23.4 (con umbral SRG y objetos de supervisión) o configurar las opciones de supervisión admitidas antes de la versión 23.4R1 de Junos OS. No se admite la combinación de ambos estilos de configuración.
- La configuración de objetos de monitor es la misma que en SRG 0 y SRG1+.
Ejemplos de configuración:
En el siguiente fragmento de configuración, el grupo de redundancia de servicio (SRGx) incluye dos objetos de monitor: red-A y red-B. Cada uno de estos objetos de supervisión tiene supervisión IP, supervisión de interfaz y detección de BFD configurados con los respectivos pesos y valores de umbral.
- Establezca el valor del umbral SRG.
set chassis high-availability services-redundancy-group x monitor srg-threshold 100
- Configure el objeto de monitor
network-A
.- Establezca el valor de umbral del objeto de monitor.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A object-threshold 100
-
Configure las opciones de supervisión de BFD.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A bfd-liveliness threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A bfd-liveliness dst-ip 10.1.1.1 src-ip 10.1.1.2 session-type multi-hop weight 100
-
Configure el peso y los valores de umbral para la supervisión de IP.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 10.10.10.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 20.20.20.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 30.30.30.1 weight 50
- Configure el peso y los valores de umbral para la supervisión de la interfaz.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name xe-1/0/1 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name xe-1/0/2 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name ae0 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name ae1 weight 50
- Establezca el valor de umbral del objeto de monitor.
-
Configure el objeto de monitor
network-B
.-
Establezca el valor de umbral del objeto de monitor.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B object-threshold 200
-
Configure la supervisión de BFD en el objeto monitor.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B bfd-liveliness threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B bfd-liveliness dst-ip 10.2.2.1 src-ip 10.2.2.2 session-type multi-hop weight 100
-
Configure el peso y los valores de umbral para la supervisión de IP.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.11.11.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.21.21.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.31.31.1 weight 50
-
Configure el peso y los valores de umbral para la supervisión de la interfaz.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name xe-1/0/3 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name xe-1/0/4 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name ae2 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name ae3 weight 50
-
Tomemos el caso del objeto monitor de red-B en la muestra.
El sistema tiene un valor de umbral de 100 para la supervisión de interfaces y ponderaciones asignadas para las interfaces miembro (50, 50, 25 y 25). Si una interfaz de peso 50 falla, el valor de peso de la interfaz (50) se agrega al recuento y se compara con el valor umbral de la supervisión de interfaz. Es decir, el recuento es 50 y el umbral de interfaz es 100. El recuento sigue siendo inferior al valor de umbral de la interfaz.
Si otra interfaz de peso 50 deja de funcionar, el recuento se incrementa en 50 y se compara con el valor umbral de la supervisión de la interfaz. El recuento ahora es igual al valor de umbral de interfaz 100. Como el recuento es igual al valor de umbral, el sistema agrega este valor (100) al recuento del objeto de monitor (red-B). El valor umbral de la red de objetos de monitor B es 200. El recuento (100) sigue siendo menor que el valor de umbral del monitor de objetos.
Del mismo modo, si el monitor IP o el monitor BFD también alcanzan sus respectivos valores de umbral y aumentan el recuento del monitor de objetos, el recuento se incrementa y se compara con el valor de umbral del monitor de objetos. Una vez que el recuento suprime el valor umbral del monitor de objetos, el sistema agrega el recuento al recuento del grupo de redundancia de servicio (SRG-1). Si la suma de los recuentos de monitores de objetos de red A y de red B supera el valor umbral de SRG-1, el sistema activa la conmutación por error a otro nodo.
Comprobar la configuración de los objetos de supervisión
Utilice los show chassis high-availability services-redundancy-group 1
comandos o show chassis high-availability services-redundancy-group <id> monitor-object <name>
.
En el ejemplo siguiente se muestra el resultado del show chassis high-availability services-redundancy-group 1
comando.
user@host> show chassis high-availability services-redundancy-group 1 SRG failure event codes: BF BFD monitoring IP IP monitoring IF Interface monitoring PM Path monitoring CP Control Plane monitoring ............................................. SRG Path Monitor Info: SRG Monitor Status: UP SRG Monitor Threshold: 100 SRG Monitor Weight: 0 SRG Monitor Failed Objects: [ NONE ] Object Name: Network-B Object Status: UP Object Monitored Entries: [ IP IF BFD ] Object Failures: [ IP ] Object Threshold: 200 Object Current Weight: 0 Object Name: Network-A Object Status: UP Object Monitored Entries: [ IP IF BFD] Object Failures: NONE Object Threshold: 100 Object Current Weight: 0
En la salida del comando, puede ver el estado de los objetos Network-B
de supervisión y Network-A
. También puede observar que el objeto de error se detalla en la salida junto con sus valores de umbral y peso.