Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Opciones de monitoreo de alta disponibilidad de múltiples nodos

Tipos de monitoreo

Una detección de fallas de alta disponibilidad monitorea tanto el sistema, el software y el hardware para detectar fallas internas. El sistema también puede monitorear problemas de conectividad de red o vincular la conectividad utilizando monitoreo de interfaz, monitoreo de ruta BFD y monitoreo de IP para detectar la accesibilidad de objetivos más lejanos.

La Tabla 1 proporciona detalles sobre los diferentes tipos de monitoreo utilizados en la alta disponibilidad de múltiples nodos.

Tabla 1: Tipos de monitoreo de alta disponibilidad multinodo
Tipo de Montitoring ¿Qué es el alcance del tipo de detección ?
Monitoreo de BFD Supervisa la accesibilidad al siguiente salto examinando la capa de vínculo junto con el vínculo real.
  • Errores de ruta
  • Errores de vínculo
  • Detecta fallas dentro de su conectividad de enrutamiento
  • No está diseñado para detectar fallas más allá de las conexiones directas / próximos saltos.
Monitoreo de IP

Monitorea la conectividad con hosts o servicios ubicados más allá de las interfaces conectadas directamente o los próximos saltos.

  • Errores de ruta
  • Errores de vínculo
  • Detecta errores que se producen en hosts o servicios más distantes.
  • No está diseñado para detectar errores que ocurren en vínculos conectados directamente o fallas en el próximo salto.
Monitoreo de interfaz

Examina si la capa de vínculo está operativa o no.

Errores de vínculo
  • Detecta fallos en vínculos conectados directamente o próximos saltos, y conectividad a hosts o servicios ubicados más lejos.
  • No está diseñado para supervisar la ruta de acceso

En la alta disponibilidad de varios nodos, cuando la supervisión detecta un error de conectividad en un host o servicio, marca la ruta afectada como inactiva/no disponible y marca los grupos de rutas de servicio (SRG) correspondientes en el nodo afectado como no elegibles. Los SRG afectados pasarán con estado al otro nodo sin causar ninguna interrupción en el tráfico.

Para evitar que se pierda tráfico, la Alta disponibilidad de multinodo toma las siguientes precauciones:

  • Modo de capa 3: las rutas se volverán a dibujar para que el tráfico se redirija correctamente
  • Puerta de enlace predeterminada o modo híbrido: el nuevo nodo activo para el SRG envía un GARP (ARP gratuito) al conmutador conectado para garantizar el reenrutamiento del tráfico

Escenarios de error de alta disponibilidad de múltiples nodos

En las secciones siguientes se describen los posibles escenarios de error: cómo se detecta un error, qué acción de recuperación tomar y, si corresponde, el impacto en el sistema causado por el error.

Error de nodo

Error de hardware

  • Causa: un componente de hardware defectuoso o un problema del entorno, como un corte de energía.
  • Detección: en alta disponibilidad multinodo
    • No se puede acceder al dispositivo/nodo afectado
    • El estado de SRG1 cambia a INELIGIBLE en el nodo con error de hardware.
  • Impacto : el tráfico conmutará por error al otro nodo (si está en buen estado), como se muestra en la figura 1. .
    Figura 1: Error de hardware en la alta disponibilidad Hardware Failure in Multinode High Availability de varios nodos
  • Recuperación: la recuperación del error tiene lugar cuando se borra el error de hardware del chasis (por ejemplo, reemplazar o reparar el componente de hardware defectuoso).
  • Resultados: compruebe el estado mediante los siguientes comandos:

Error del sistema/software

  • Causa: falla en el proceso o servicio de software, o problemas con el sistema operativo.
  • Detección: en alta disponibilidad multinodo
    • No se puede acceder al dispositivo/nodo afectado
    • Cambia el estado del sistema a INELIGIBLE en el nodo afectado con error del sistema o software.
  • Impacto: el tráfico conmutará por error al otro nodo si está en buen estado, como se muestra en la figura 2.
    Figura 2: Error de software en la alta disponibilidad Software Failure in Multinode High Availability de varios nodos
  • Recuperación: se recupera de forma automática y elegante de la interrupción una vez que se soluciona el problema. El nodo de copia de seguridad que ha asumido la función activa sigue activo. El nodo anteriormente activo permanece como nodo de reserva.
  • Resultados: compruebe el estado mediante el comando mostrar detalles de información de alta disponibilidad del chasis .

Error de red/conectividad

Error de interfaces físicas (vínculo)

  • Causa: una falla en las interfaces podría deberse a interrupciones del equipo de red, a interrupciones con el cable físico o a configuraciones inconsistentes.
  • Detección: en alta disponibilidad multinodo
    • No se puede acceder al dispositivo/nodo afectado.
    • El estado de SRG1 cambia a INELIGIBLE en el nodo afectado con error de red o conectividad (si el monitor de interfaz está configurado). La conectividad de la ruta también se puede detectar con BFD o monitoreo de IP y desencadenar un evento basado en la acción configurada.
  • Impacto: un cambio en el estado del vínculo de las interfaces desencadena una conmutación por error. El nodo de copia de seguridad asume la función activa y los servicios que se ejecutaban en el nodo con errores se migran a otro nodo, como se muestra en la figura 3.
    Figura 3: Error de Interface Failure interfaz
  • Configuración: para configurar la supervisión de BFD y la supervisión de interfaz, utilice la siguiente instrucción de configuración:

    Todos los enlaces críticos para el flujo de tráfico deben ser monitoreados.

    Ejemplo de pago: Configure la alta disponibilidad de varios nodos en una red de capa 3 para obtener detalles completos de la configuración.

  • Recuperación: se recupera cuando se repara o reemplaza la interfaz defectuosa. Después de que se recupera la falla de red o conectividad, SRG1 pasa del estado INELEGIBLE al estado BACKUP. El nuevo nodo activo continúa anunciando mejores métricas para su enrutador ascendente y procesa el tráfico.
  • Resultados: compruebe el estado mediante los siguientes comandos:
  • Para obtener información sobre la configuración de interfaces, consulte Configuración de alta disponibilidad de múltiples nodos en una red de capa 3, Configuración de alta disponibilidad de múltiples nodos en una implementación híbrida, Configuración de alta disponibilidad de múltiples nodos en una implementación de puerta de enlace predeterminada, Solución de problemas de interfaces.

Error de vínculo entre chasis (ICL)

  • Causa: un fallo en ICL podría deberse a interrupciones de la red o a configuraciones incoherentes.
  • Detección: en la alta disponibilidad de varios nodos, los nodos no pueden comunicarse entre sí e inician una sonda de determinación de actividad (sonda ICMP).
  • Impacto: en un sistema de alta disponibilidad multinodo, ICL conecta nodos activos y de respaldo; si la ICL deja de funcionar, ambos dispositivos notarán este cambio e iniciarán la sonda de actividad (sonda ICMP). La sonda de actividad se realiza para determinar el nodo que puede asumir el rol activo para cada SRG1+. Según el resultado de la sonda, uno de los nodos pasa al estado activo.

    Como se muestra en la Figura 4, la ICL entre SRX-1 y SRX-2 desciende. Ambos dispositivos no pueden comunicarse entre sí y comienzan a enviar sondas de actividad al enrutador ascendente. Dado que SRX-1 se encuentra en la ruta preferida más alta en la configuración del enrutador, asume un rol activo y continúa procesando el tráfico y anuncia una ruta de preferencia más alta. El otro asume el papel de copia de seguridad.

    Figura 4: Error de ICL en alta disponibilidad ICL Failure in Multinode High Availability de múltiples nodos
  • Configuración: para configurar el sondeo de actividad, utilice la siguiente instrucción de configuración:

    Realice el proceso de pago Configuración de alta disponibilidad de múltiples nodos en una red de capa 3 para obtener detalles completos de la configuración.

  • Resultados: compruebe el estado mediante los siguientes comandos:
  • Recuperación: una vez que uno de los nodos asume el rol activo, Alta disponibilidad multinodo reinicia el proceso de sincronización en frío y resincroniza los servicios del plano de control (VPN IPSec). La información de estado de SRG se vuelve a intercambiar entre los nodos.

El nodo permanece en estado aislado

  • Causa: en una configuración de alta disponibilidad de varios nodos, el nodo permanece aislado después de un reinicio y las interfaces asociadas continúan inactivas cuando:
    • El vínculo entre chasis (ICL) no tiene conectividad con el otro nodo después de arrancar hasta que se complete la sincronización en frío

      y

    • La shutdown-on-failure opción está configurada en SRG0

      Nota:

      La causa anterior también podría ocurrir si el otro dispositivo está fuera de servicio.

  • Detección: el estado SRG0 se muestra como ISOLATED en la salida del comando.
  • Recuperación: el nodo se recupera automáticamente cuando el otro nodo se conecta y la ICL puede intercambiar información del sistema, o cuando se elimina la shutdown-on-failure instrucción y se confirma la configuración.

    Utilice el delete chassis high-availability services-redundancy-group 0 shutdown-on-failure para quitar la instrucción.

    Si la solución anterior no es adecuada para su entorno, puede usar la install-on-failure-route opción. En esta opción, la configuración de alta disponibilidad de multinodo utiliza una ruta de señal definida para un manejo más elegante de la situación anterior mediante las opciones de política de enrutamiento, que es similar al enfoque de ruta de señal activa y ruta de señal de respaldo disponibles en SRG1+.

Monitoreo de ruta flexible

A partir de la versión 23.4R1 de Junos OS, agregamos nuevas mejoras para las siguientes funciones de supervisión de rutas existentes:

  • Monitoreo de IP
  • Monitoreo de BFD
  • Monitoreo de interfaz

Las mejoras agregan un control más granular para la función de monitoreo de rutas al:

  • Extensión del monitoreo para SRG0 además de SRG1+
  • Agrupación de funciones de supervisión
  • Supervisión de soporte técnico basada en la dirección asociada a una ruta de acceso de grupo de redundancia de servicio (SRG)
  • Agregar pesos asociados con cada función de monitoreo

Al agrupar las funciones relacionadas, el sistema puede procesarlas como una unidad, lo que puede conducir a una computación y utilización de recursos más eficientes.

Objetos de supervisión SRG

Vamos a entender el concepto de supervisión de objetos con la siguiente ilustración.

Figura 5: Objetos SRG Monitoring Objects de monitoreo SRG

Puede configurar las opciones de supervisión por grupo de redundancia de servicio. Es decir, si se produce un error en elementos específicos del SRG, ese SRG puede conmutar por error al otro nodo. Cada SRG incluye uno o más objetos de supervisión.

Las funciones de monitoreo disponibles en los objetos de monitoreo son: vida BFD, monitoreo de interfaz y monitoreo de IP. Cada una de estas características tiene un valor de umbral y atributos de peso asociados.

Dentro de un objeto de monitor, cada vez que el objeto en particular no puede activar una conmutación por error como resultado de la supervisión de IP/interfaz/BFD, el sistema considera el evento como error de supervisión. El software agrega el recuento en función del peso del objeto fallido.

Cuando el recuento supera el valor umbral de IP/interfaz/BFD, el sistema agrega el recuento al valor umbral del objeto de supervisión principal.

Cuando la suma de los umbrales de todos los objetos de supervisión enlazados al SRG es igual o mayor que el valor de umbral configurado en el SRG, el sistema desencadena un error de monitor para ese SRG. SRG conmuta por error al otro nodo.

Configuración de supervisión de ruta

Consideremos el siguiente ejemplo para la topología que se muestra en la figura 6. En esta configuración, estamos configurando las opciones de monitoreo de ruta para SRG1 en el dispositivo del Nodo 2.

Figura 6: Ejemplo Path Monitoring Configuration Sample de configuración de supervisión de ruta

En este ejemplo, para configurar las opciones de supervisión de rutas:

  • Utilice una interfaz Ethernet agregada (ae) para el vínculo entre chasis (ICL) y utilice interfaces xe-1/0/x para conectarse a enrutadores vecinos.
  • Cree dos objetos de monitor "red-A" y "red-B". Tanto los objetos de monitor de red A como los de red B incluyen todas las direcciones IP e interfaces configuradas entre el dispositivo de la serie SRX y los enrutadores vecinos.
  • Configure BFD para supervisar las rutas vecinas.
  • Configure la supervisión de IP para supervisar las rutas que no están conectadas directamente al SRG1.
  • Configure la supervisión de la interfaz en vínculos conectados directamente o en próximos saltos.

En la tabla siguiente se muestran los pesos de ejemplo y las asignaciones de umbral.

Tabla 2: Pesos y umbrales para objetos de monitor (ejemplo)

Supervisar objetos

BFD

IP

Interfaz

Umbral de objeto de monitor

Umbral SRG

 

Umbral

Peso

Umbral

Peso

Umbral

Peso

red-A

100

50

100

50 (10.10.10.1, 10.20.20.1, 10.30.30.1)

100

25 (xe-1/0/1 y xe-1/0/2)

50 (ae0 y ae1)

100

100

red-B

100

50

100

50 (10.11.11.1, 10.12.12.1, 10.13.13.1)

100

25 (xe-1/0/3 y xe-1/0/4)

50 (AE2 y AE3)

200

Nota:
  • Puede configurar hasta 10 objetos de supervisión por SRG.
  • Puede configurar la supervisión de SRG como en Junos OS 23.4 (con umbral SRG y objetos de supervisión) o configurar las opciones de supervisión admitidas antes de la versión 23.4R1 de Junos OS. No se admite la combinación de ambos estilos de configuración.
  • La configuración de objetos de monitor es la misma que en SRG 0 y SRG1+.

Ejemplos de configuración:

En el siguiente fragmento de configuración, el grupo de redundancia de servicio (SRGx) incluye dos objetos de monitor: red-A y red-B. Cada uno de estos objetos de supervisión tiene supervisión IP, supervisión de interfaz y detección de BFD configurados con los respectivos pesos y valores de umbral.

  • Establezca el valor del umbral SRG.
  • Configure el objeto de monitor network-A.
    • Establezca el valor de umbral del objeto de monitor.
    • Configure las opciones de supervisión de BFD.

    • Configure el peso y los valores de umbral para la supervisión de IP.

    • Configure el peso y los valores de umbral para la supervisión de la interfaz.
  • Configure el objeto de monitor network-B.

    • Establezca el valor de umbral del objeto de monitor.

    • Configure la supervisión de BFD en el objeto monitor.

    • Configure el peso y los valores de umbral para la supervisión de IP.

    • Configure el peso y los valores de umbral para la supervisión de la interfaz.

Tomemos el caso del objeto monitor de red-B en la muestra.

El sistema tiene un valor de umbral de 100 para la supervisión de interfaces y ponderaciones asignadas para las interfaces miembro (50, 50, 25 y 25). Si una interfaz de peso 50 falla, el valor de peso de la interfaz (50) se agrega al recuento y se compara con el valor umbral de la supervisión de interfaz. Es decir, el recuento es 50 y el umbral de interfaz es 100. El recuento sigue siendo inferior al valor de umbral de la interfaz.

Si otra interfaz de peso 50 deja de funcionar, el recuento se incrementa en 50 y se compara con el valor umbral de la supervisión de la interfaz. El recuento ahora es igual al valor de umbral de interfaz 100. Como el recuento es igual al valor de umbral, el sistema agrega este valor (100) al recuento del objeto de monitor (red-B). El valor umbral de la red de objetos de monitor B es 200. El recuento (100) sigue siendo menor que el valor de umbral del monitor de objetos.

Del mismo modo, si el monitor IP o el monitor BFD también alcanzan sus respectivos valores de umbral y aumentan el recuento del monitor de objetos, el recuento se incrementa y se compara con el valor de umbral del monitor de objetos. Una vez que el recuento suprime el valor umbral del monitor de objetos, el sistema agrega el recuento al recuento del grupo de redundancia de servicio (SRG-1). Si la suma de los recuentos de monitores de objetos de red A y de red B supera el valor umbral de SRG-1, el sistema activa la conmutación por error a otro nodo.

Comprobar la configuración de los objetos de supervisión

Utilice los show chassis high-availability services-redundancy-group 1 comandos o show chassis high-availability services-redundancy-group <id> monitor-object <name> .

En el ejemplo siguiente se muestra el resultado del show chassis high-availability services-redundancy-group 1 comando.

En la salida del comando, puede ver el estado de los objetos Network-B de supervisión y Network-A. También puede observar que el objeto de error se detalla en la salida junto con sus valores de umbral y peso.