Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Options de surveillance de la haute disponibilité multinœud

Types de surveillance

La détection des défaillances à haute disponibilité surveille les défaillances internes du système, des logiciels et du matériel. Le système peut également surveiller les problèmes de connectivité réseau ou de liaison à l’aide de la surveillance des interfaces, de la surveillance des chemins BFD et de la surveillance IP pour détecter l’accessibilité des cibles plus éloignées.

Le Tableau 1 fournit des détails sur les différents types de surveillance utilisés dans la haute disponibilité multinœud.

Tableau 1 : types de surveillance de la haute disponibilité multinœud
Type de montage Qu’est-ce que le type de détection Champ d’application
Surveillance BFD Surveille l’accessibilité au saut suivant en examinant la couche de liaison avec la liaison réelle.
  • Échecs de chemin
  • Défaillances de liaison
  • Détecte les défaillances dans sa connectivité de routage
  • Non destiné à détecter les défaillances au-delà des connexions directes/sauts suivants.
Surveillance IP

Surveille la connectivité aux hôtes ou aux services situés au-delà des interfaces directement connectées ou des sauts suivants.

  • Échecs de chemin
  • Défaillances de liaison
  • Détecte les défaillances survenant au niveau d’hôtes ou de services plus distants.
  • Non destiné à détecter les défaillances survenant dans les liaisons directement connectées ou les défaillances de sauts suivants.
Surveillance des interfaces

Examine si la couche de liaison est opérationnelle ou non.

Défaillances de liaison
  • Détecte les défaillances dans les liens directement connectés ou les sauts suivants, ainsi que la connectivité aux hôtes ou services situés plus loin.
  • Non destiné à la surveillance du chemin

En haute disponibilité multinœud, lorsque la surveillance détecte une défaillance de la connectivité à un hôte ou à un service, elle marque le chemin affecté comme inactif/indisponible, et marque les groupes de routage de service (SRG) correspondants au niveau du nœud concerné comme non éligibles. Les passeront de manière dynamique vers l’autre nœud sans perturber le trafic.

Pour éviter toute perte de trafic, la haute disponibilité multinœud prend les précautions suivantes :

  • Mode Couche 3 : les itinéraires sont redessinés afin que le trafic soit correctement redirigé
  • Passerelle ou mode hybride par défaut—le nouveau nœud actif de la passerelle SRG envoie un ARP gratuit (GARP) au commutateur connecté pour assurer le réacheminement du trafic

Scénarios d’échec de la haute disponibilité multinœud

Les sections suivantes décrivent les scénarios de défaillance possibles : comment une défaillance est détectée, quelle action de récupération effectuer et, le cas échéant, l’impact de la défaillance sur le système.

Défaillance de nœud

Défaillance matérielle

  • Cause : un composant matériel défaillant ou un problème environnemental tel qu’une panne de courant.
  • Détection : en haute disponibilité multinoeud
    • L’appareil/nœud concerné n’est pas accessible
    • L’état SRG1 passe à INELIGIBLE sur le nœud en cas de défaillance matérielle.
  • Impact —Le trafic bascule vers l’autre nœud (s’il est sain), comme illustré sur la Figure 1. .
    Figure 1 : défaillance matérielle dans la haute disponibilité Hardware Failure in Multinode High Availability à plusieurs nœuds
  • Récupération : la récupération de la défaillance a lieu lorsque vous effacez la défaillance matérielle du châssis (ex : remplacez ou réparez le composant matériel défaillant.
  • Résultats : vérifiez l’état à l’aide des commandes suivantes :

Défaillance système/logiciel

  • Cause : défaillance d’un logiciel, d’un processus ou d’un service, ou de problèmes avec le système d’exploitation.
  • Détection : en haute disponibilité multinoeud
    • L’appareil/nœud concerné n’est pas accessible
    • Modifie l’état du système en INELIGIBLE sur le noeud affecté en cas de défaillance du système/logiciel.
  • Impact —Le trafic bascule vers l’autre nœud s’il est sain, comme illustré sur la Figure 2
    Figure 2 : défaillance logicielle dans la haute disponibilité Software Failure in Multinode High Availability multinœud
  • Recovery (Récupération) : récupère automatiquement et sans problème de la panne une fois le problème résolu. Le nœud de sauvegarde qui a pris le rôle actif continue de rester actif. L’ancien noeud actif reste le noeud de secours.
  • Résultats : vérifiez l’état à l’aide de la commande show chassis high-availability information detail .

Défaillance du réseau/de la connectivité

Défaillance des interfaces physiques (liaison)

  • Cause : une défaillance des interfaces peut être due à des pannes d’équipement réseau, à une perturbation du câblage physique ou à des configurations incohérentes.
  • Détection : en haute disponibilité multinoeud
    • L’appareil/nœud concerné n’est pas accessible.
    • L’état SRG1 passe à INELIGIBLE sur le noeud affecté en cas de défaillance du réseau ou de la connectivité (si le moniteur d’interface est configuré). La connectivité du chemin peut également être détectée par BFD ou la surveillance IP et déclencher un événement en fonction de l’action configurée.
  • Impact : une modification de l’état de la liaison des interfaces déclenche un basculement. Le nœud de sauvegarde prend le rôle actif et les services qui s’exécutaient sur le nœud défaillant sont migrés vers un autre nœud, comme illustré à la Figure 3.
    Figure 3 : défaillance de l’interface Interface Failure
  • Configuration : pour configurer la surveillance BFD et la surveillance de l’interface, utilisez l’instruction de configuration suivante :

    Toutes les liaisons critiques pour la fluidité du trafic doivent être surveillées.

    Exemple de paiement : Configurez la haute disponibilité multinœud dans un réseau de couche 3 pour obtenir des détails de configuration complets.

  • Recovery (Récupération) : se récupère lorsque vous réparez/remplacez l’interface défaillante. Une fois la défaillance du réseau/de la connectivité rétablie, SRG1 passe de l’état INELIGIBLE à l’état BACKUP. Le nouveau nœud actif continue d’annoncer de meilleures mesures à son routeur en amont et traite le trafic.
  • Résultats : vérifiez l’état à l’aide des commandes suivantes :
  • Pour plus d’informations sur la configuration des interfaces, reportez-vous à la section Configuration de la haute disponibilité de plusieurs nœuds dans un réseau de couche 3, Configuration de la haute disponibilité de plusieurs nœuds dans un déploiement hybride, Configuration de la haute disponibilité de plusieurs nœuds dans un déploiement de passerelle par défaut, Dépannage des interfaces.

Défaillance de la liaison interchâssis (ICL)

  • Cause : une défaillance de l’ICL peut être due à des pannes de réseau ou à des configurations incohérentes.
  • Détection : en haute disponibilité multinœud, les nœuds ne peuvent pas se rejoindre et lancent une sonde de détermination de l’activité (sonde ICMP).
  • Conséquence : dans un système à haute disponibilité multinœud, ICL connecte les nœuds actifs et de secours ; si l’ICL tombe en panne, les deux appareils remarqueront ce changement et lanceront la sonde d’activité (sonde ICMP). Une sonde d’activité est effectuée pour déterminer le nœud qui peut jouer un rôle actif pour chaque SRG1+. En fonction du résultat de la sonde, l’un des nœuds passe à l’état actif.

    Comme le montre la Figure 4, la ICL entre SRX-1 et SRX-2 diminue. Les deux appareils ne peuvent pas se joindre et commencent à envoyer des sondes d’activité au routeur en amont. Étant donné que SRX-1 se trouve sur le chemin préféré le plus élevé dans la configuration du routeur, il joue un rôle actif et continue à traiter le trafic et annonce le chemin de préférence le plus élevé. L’autre joue le rôle de secours.

    Figure 4 : défaillance ICL dans la haute disponibilité ICL Failure in Multinode High Availability à plusieurs nœuds
  • Configuration : pour configurer le sondage d’activité, utilisez l’instruction de configuration suivante :

    Consultez la page Configuration de la haute disponibilité multinœud dans un réseau de couche 3 pour plus de détails sur la configuration.

  • Résultats : vérifiez l’état à l’aide des commandes suivantes :
  • Récupération : une fois que l’un des nœuds assume un rôle actif, la haute disponibilité multinœud redémarre le processus de synchronisation à froid et resynchronise les services de plan de contrôle (VPN IPSec). Les informations d’état du SRG sont rééchangées entre les nœuds.

Le noeud reste à l’état isolé

  • Cause : dans une configuration de haute disponibilité à plusieurs nœuds, le nœud reste à l’état isolé après un redémarrage et les interfaces associées continuent de rester inactives dans les cas suivants :
    • L’ICL (Inter Chassis Link) n’a aucune connectivité avec l’autre nœud après le démarrage jusqu’à la fin de la synchronisation à froid

      et

    • L’option shutdown-on-failure est configurée sur SRG0

      Note:

      La cause ci-dessus peut également se produire si l’autre appareil est hors service.

  • Detection (Détection) : l’état SRG0 s’affiche comme dans la ISOLATED sortie de la commande.
  • Recovery (Récupération) : le noeud est automatiquement récupéré lorsque l’autre noeud est activé et que l’ICL peut échanger des informations système ou lorsque vous supprimez l’instruction shutdown-on-failure et validez la configuration.

    Utilisez la delete chassis high-availability services-redundancy-group 0 shutdown-on-failure pour supprimer l’instruction.

    Si la solution ci-dessus n’est pas adaptée à votre environnement, vous pouvez utiliser l’option install-on-failure-route . Dans cette option, la configuration de haute disponibilité multinœud utilise une route de signal définie pour une gestion plus harmonieuse de la situation ci-dessus à l’aide des options de stratégie de routage, ce qui est similaire à l’approche de route de signal actif et de signal de secours disponible dans SRG1+.

Surveillance flexible des chemins

À partir de la version 23.4R1 de Junos OS, nous avons ajouté de nouvelles améliorations aux fonctionnalités de surveillance de chemin existantes suivantes :

  • Surveillance IP
  • Surveillance BFD
  • Surveillance des interfaces

Les améliorations permettent d’affiner le contrôle de la fonctionnalité de surveillance des chemins :

  • Extension de la surveillance pour SRG0 en plus de SRG1+
  • Regroupement des fonctions de surveillance
  • Prise en charge de la surveillance en fonction de la direction associée à un chemin de groupe de redondance de services (SRG)
  • Ajout de pondérations associées à chaque fonction de surveillance

En regroupant les fonctions associées, le système peut les traiter comme une unité, ce qui peut conduire à un calcul et à une utilisation des ressources plus efficaces.

Objets de surveillance SRG

Comprenons le concept de surveillance des objets à l’aide de l’illustration suivante.

Figure 5 : Objets SRG Monitoring Objects de surveillance de la SSR

Vous pouvez configurer les options de surveillance par groupe de redondance de service. En d’autres termes, en cas de défaillance d’éléments spécifiques de la passerelle SRG, celle-ci peut basculer vers l’autre nœud. Chaque SSR comprend un ou plusieurs objets de surveillance.

Les fonctionnalités de surveillance disponibles dans les objets de surveillance sont les suivantes : l’activité BFD, la surveillance des interfaces et la surveillance IP. Chacune de ces caractéristiques est associée à une valeur seuil et à des attributs de pondération.

Au sein d’un objet monitor, chaque fois que l’objet particulier ne parvient pas à déclencher un basculement à la suite d’une surveillance IP/interface/BFD, le système considère l’événement comme un échec de surveillance. Le logiciel ajoute le nombre en fonction du poids de l’objet défaillant.

Lorsque le nombre dépasse la valeur seuil de IP/interface/BFD, le système ajoute le nombre à la valeur seuil de l'objet de surveillance parent.

Lorsque la somme des seuils de tous les objets de surveillance liés au SRG est égale ou supérieure à la valeur de seuil configurée sur le SRG, le système déclenche un échec du moniteur pour ce SRG. La SSR bascule sur l’autre nœud.

Configuration de la surveillance des chemins

Considérons l’exemple suivant pour la topologie illustrée à la Figure 6. Dans cette configuration, nous configurons des options de surveillance de chemin pour SRG1 sur l’équipement Node 2.

Figure 6 : exemple de Path Monitoring Configuration Sample configuration de surveillance de chemin

Dans cet exemple, pour configurer les options de surveillance de chemin :

  • Utilisez une interface Ethernet agrégée (ae) pour la liaison inter-châssis (ICL) et utilisez des interfaces xe-1/0/x pour la connexion aux routeurs voisins.
  • Créez deux objets-moniteurs « réseau-A » et « réseau-B ». Les objets monitor-réseau A et réseau B incluent toutes les adresses IP et interfaces configurées entre le périphérique SRX Series et les routeurs voisins.
  • Configurez BFD pour surveiller les routes voisines.
  • Configurez la surveillance IP pour surveiller les routes qui ne sont pas directement connectées à SRG1.
  • Configurez la surveillance des interfaces sur les liaisons directement connectées ou les next-hops.

Le tableau suivant présente les exemples de pondération et les affectations de seuils.

Tableau 2 : Pondérations et seuil pour les objets moniteurs (exemple)

Surveiller les objets

BFD

IP

Interface

Seuil d’objet moniteur

Seuil de la SSR

 

Seuil

Poids

Seuil

Poids

Seuil

Poids

réseau-A

100

50

100

50 (10.10.10.1, 10.20.20.1, 10.30.30.1)

100

25 (XE-1/0/1 et XE-1/0/2)

50 (AE0 et AE1)

100

100

réseau-B

100

50

100

50 (10.11.11.1, 10.12.12.1, 10.13.13.1)

100

25 (XE-1/0/3 et XE-1/0/4)

50 (AE2 et AE3)

200

Note:
  • Vous pouvez configurer jusqu’à 10 objets de surveillance par SSR.
  • Vous pouvez configurer la surveillance SRG comme dans Junos OS 23.4 (avec SRG threshold et monitoring-objects) ou configurer les options de surveillance comme elles étaient prises en charge avant Junos OS version 23.4R1. La combinaison des deux styles de configuration n’est pas prise en charge.
  • La configuration des objets monitor-objects est la même que sur SRG 0 et SRG1+.

Exemples de configuration :

Dans l’extrait de configuration suivant, le groupe de redondance de service (SRGx) inclut deux objets moniteur : réseau-A et réseau-B. Chacun de ces objets de surveillance dispose d’une surveillance IP, d’une surveillance d’interface et d’une détection BFD configurées avec des poids et des valeurs seuils respectifs.

  • Définissez la valeur de seuil SRG.
  • Configurer monitor-object network-A.
    • Définissez la valeur seuil de l’objet moniteur.
    • Configurez les options de surveillance BFD.

    • Configurez les valeurs de poids et de seuil pour la surveillance IP.

    • Configurez les valeurs de poids et de seuil pour la surveillance des interfaces.
  • Configurer monitor-object network-B.

    • Définissez la valeur seuil de l’objet moniteur.

    • Configurez la surveillance BFD dans l’objet monitor.

    • Configurez les valeurs de poids et de seuil pour la surveillance IP.

    • Configurez les valeurs de poids et de seuil pour la surveillance des interfaces.

Prenons le cas de network-B monitor-object dans l’exemple.

Le système a une valeur seuil de 100 pour la surveillance des interfaces et des pondérations attribuées pour les interfaces membres (50, 50, 25 et 25). Si une interface de poids 50 tombe en panne, la valeur de poids de l’interface (50) est ajoutée au nombre et comparée à la valeur seuil de la surveillance de l’interface. En d’autres termes, le nombre est égal à 50 et le seuil d’interface est égal à 100. Le nombre est toujours inférieur à la valeur seuil de l’interface.

Si une autre interface de poids 50 tombe en panne, le nombre est incrémenté de 50 et comparé à la valeur seuil de la surveillance de l’interface. Le nombre est maintenant égal à la valeur seuil de l’interface 100. Comme le nombre est égal à la valeur de seuil, le système ajoute cette valeur (100) au nombre de l'objet moniteur (réseau-B). La valeur seuil de monitor-object network-B est 200. Le nombre (100) est toujours inférieur à la valeur seuil de object-monitor.

De même, si le moniteur IP ou le moniteur BFD atteignent également leurs valeurs seuils respectives et s'ajoutent au nombre de moniteurs d'objets, le nombre est incrémenté et comparé à la valeur de seuil de moniteur d'objets. Une fois que le nombre supprime la valeur seuil du moniteur d'objets, le système ajoute le nombre au nombre de SRG-1 (service-redundancy-group). Si la somme du nombre de moniteurs d'objets réseau A et réseau B dépasse la valeur seuil de SRG-1, le système déclenche le basculement vers un autre nœud.

Vérifier la configuration des objets de surveillance

Utilisez les show chassis high-availability services-redundancy-group 1 commandes ou show chassis high-availability services-redundancy-group <id> monitor-object <name> .

L’exemple suivant montre la sortie de show chassis high-availability services-redundancy-group 1 la commande.

Dans la sortie de la commande, vous pouvez voir l’état des objets Network-B de surveillance et Network-A. Vous pouvez également remarquer que les détails de l’objet d’échec dans la sortie, ainsi que leurs valeurs seuils et leur poids.