SUR CETTE PAGE
Options de surveillance de la haute disponibilité multinœud
Types de surveillance
La détection des défaillances à haute disponibilité surveille les défaillances internes du système, des logiciels et du matériel. Le système peut également surveiller les problèmes de connectivité réseau ou de liaison à l’aide de la surveillance des interfaces, de la surveillance des chemins BFD et de la surveillance IP pour détecter l’accessibilité des cibles plus éloignées.
Le Tableau 1 fournit des détails sur les différents types de surveillance utilisés dans la haute disponibilité multinœud.
Type de montage | Qu’est-ce que le | type de détection | Champ d’application |
---|---|---|---|
Surveillance BFD | Surveille l’accessibilité au saut suivant en examinant la couche de liaison avec la liaison réelle. |
|
|
Surveillance IP | Surveille la connectivité aux hôtes ou aux services situés au-delà des interfaces directement connectées ou des sauts suivants. |
|
|
Surveillance des interfaces | Examine si la couche de liaison est opérationnelle ou non. |
Défaillances de liaison |
|
En haute disponibilité multinœud, lorsque la surveillance détecte une défaillance de la connectivité à un hôte ou à un service, elle marque le chemin affecté comme inactif/indisponible, et marque les groupes de routage de service (SRG) correspondants au niveau du nœud concerné comme non éligibles. Les passeront de manière dynamique vers l’autre nœud sans perturber le trafic.
Pour éviter toute perte de trafic, la haute disponibilité multinœud prend les précautions suivantes :
- Mode Couche 3 : les itinéraires sont redessinés afin que le trafic soit correctement redirigé
- Passerelle ou mode hybride par défaut—le nouveau nœud actif de la passerelle SRG envoie un ARP gratuit (GARP) au commutateur connecté pour assurer le réacheminement du trafic
- Scénarios d’échec de la haute disponibilité multinœud
- Défaillance de nœud
- Défaillance du réseau/de la connectivité
Scénarios d’échec de la haute disponibilité multinœud
Les sections suivantes décrivent les scénarios de défaillance possibles : comment une défaillance est détectée, quelle action de récupération effectuer et, le cas échéant, l’impact de la défaillance sur le système.Défaillance de nœud
Défaillance matérielle
- Cause : un composant matériel défaillant ou un problème environnemental tel qu’une panne de courant.
- Détection : en haute disponibilité multinoeud
- L’appareil/nœud concerné n’est pas accessible
- L’état SRG1 passe à
INELIGIBLE
sur le nœud en cas de défaillance matérielle.
- Impact —Le trafic bascule vers l’autre nœud (s’il est sain), comme illustré sur la Figure 1. .
Figure 1 : défaillance matérielle dans la haute disponibilité
à plusieurs nœuds
- Récupération : la récupération de la défaillance a lieu lorsque vous effacez la défaillance matérielle du châssis (ex : remplacez ou réparez le composant matériel défaillant.
- Résultats : vérifiez l’état à l’aide des commandes suivantes :
Défaillance système/logiciel
- Cause : défaillance d’un logiciel, d’un processus ou d’un service, ou de problèmes avec le système d’exploitation.
- Détection : en haute disponibilité multinoeud
- L’appareil/nœud concerné n’est pas accessible
- Modifie l’état du système en
INELIGIBLE
sur le noeud affecté en cas de défaillance du système/logiciel.
- Impact —Le trafic bascule vers l’autre nœud s’il est sain, comme illustré sur la Figure 2
Figure 2 : défaillance logicielle dans la haute disponibilité
multinœud
- Recovery (Récupération) : récupère automatiquement et sans problème de la panne une fois le problème résolu. Le nœud de sauvegarde qui a pris le rôle actif continue de rester actif. L’ancien noeud actif reste le noeud de secours.
- Résultats : vérifiez l’état à l’aide de la commande show chassis high-availability information detail .
Défaillance du réseau/de la connectivité
- Défaillance des interfaces physiques (liaison)
- Défaillance de la liaison interchâssis (ICL)
- Le noeud reste à l’état isolé
Défaillance des interfaces physiques (liaison)
- Cause : une défaillance des interfaces peut être due à des pannes d’équipement réseau, à une perturbation du câblage physique ou à des configurations incohérentes.
- Détection : en haute disponibilité multinoeud
- L’appareil/nœud concerné n’est pas accessible.
- L’état SRG1 passe à
INELIGIBLE
sur le noeud affecté en cas de défaillance du réseau ou de la connectivité (si le moniteur d’interface est configuré). La connectivité du chemin peut également être détectée par BFD ou la surveillance IP et déclencher un événement en fonction de l’action configurée.
- Impact : une modification de l’état de la liaison des interfaces déclenche un basculement. Le nœud de sauvegarde prend le rôle actif et les services qui s’exécutaient sur le nœud défaillant sont migrés vers un autre nœud, comme illustré à la Figure 3.
Figure 3 : défaillance de l’interface
-
Configuration : pour configurer la surveillance BFD et la surveillance de l’interface, utilisez l’instruction de configuration suivante :
set chassis high-availability services-redundancy-group <1> monitor bfd-liveliness <source-ip-address> <destination-ip-address> routing-instance <routing-instance-name> <single-hop| multihop> <interface-name>
set chassis high-availability services-redundancy-group <1> monitor interface <interface-name>
Toutes les liaisons critiques pour la fluidité du trafic doivent être surveillées.
Exemple de paiement : Configurez la haute disponibilité multinœud dans un réseau de couche 3 pour obtenir des détails de configuration complets.
- Recovery (Récupération) : se récupère lorsque vous réparez/remplacez l’interface défaillante. Une fois la défaillance du réseau/de la connectivité rétablie, SRG1 passe de l’état INELIGIBLE à l’état BACKUP. Le nouveau nœud actif continue d’annoncer de meilleures mesures à son routeur en amont et traite le trafic.
- Résultats : vérifiez l’état à l’aide des commandes suivantes :
-
Pour plus d’informations sur la configuration des interfaces, reportez-vous à la section Configuration de la haute disponibilité de plusieurs nœuds dans un réseau de couche 3, Configuration de la haute disponibilité de plusieurs nœuds dans un déploiement hybride, Configuration de la haute disponibilité de plusieurs nœuds dans un déploiement de passerelle par défaut, Dépannage des interfaces.
Défaillance de la liaison interchâssis (ICL)
- Cause : une défaillance de l’ICL peut être due à des pannes de réseau ou à des configurations incohérentes.
- Détection : en haute disponibilité multinœud, les nœuds ne peuvent pas se rejoindre et lancent une sonde de détermination de l’activité (sonde ICMP).
- Conséquence : dans un système à haute disponibilité multinœud, ICL connecte les nœuds actifs et de secours ; si l’ICL tombe en panne, les deux appareils remarqueront ce changement et lanceront la sonde d’activité (sonde ICMP). Une sonde d’activité est effectuée pour déterminer le nœud qui peut jouer un rôle actif pour chaque SRG1+. En fonction du résultat de la sonde, l’un des nœuds passe à l’état actif.
Comme le montre la Figure 4, la ICL entre SRX-1 et SRX-2 diminue. Les deux appareils ne peuvent pas se joindre et commencent à envoyer des sondes d’activité au routeur en amont. Étant donné que SRX-1 se trouve sur le chemin préféré le plus élevé dans la configuration du routeur, il joue un rôle actif et continue à traiter le trafic et annonce le chemin de préférence le plus élevé. L’autre joue le rôle de secours.
Figure 4 : défaillance ICL dans la haute disponibilitéà plusieurs nœuds
-
Configuration : pour configurer le sondage d’activité, utilisez l’instruction de configuration suivante :
set chassis high-availability services-redundancy-group <1> activeness-probe <destination-ip-address> routing-instance <routing-instance-name>
Consultez la page Configuration de la haute disponibilité multinœud dans un réseau de couche 3 pour plus de détails sur la configuration.
- Résultats : vérifiez l’état à l’aide des commandes suivantes :
show chassis high-availability information detail
show chassis high-availability services-redundancy-group 1
-
Vérifiez la réponse au paquet ICMP à partir du routeur en amont à l’aide de l’option ping. Exemple :
ping <activeness-probe-dest-ip> source <activeness-probe-source-ip> routing-instance <routing-instance-name>
.
-
Récupération : une fois que l’un des nœuds assume un rôle actif, la haute disponibilité multinœud redémarre le processus de synchronisation à froid et resynchronise les services de plan de contrôle (VPN IPSec). Les informations d’état du SRG sont rééchangées entre les nœuds.
Le noeud reste à l’état isolé
- Cause : dans une configuration de haute disponibilité à plusieurs nœuds, le nœud reste à l’état isolé après un redémarrage et les interfaces associées continuent de rester inactives dans les cas suivants :
-
L’ICL (Inter Chassis Link) n’a aucune connectivité avec l’autre nœud après le démarrage jusqu’à la fin de la synchronisation à froid
et
-
L’option
shutdown-on-failure
est configurée sur SRG0Note:La cause ci-dessus peut également se produire si l’autre appareil est hors service.
-
- Detection (Détection) : l’état SRG0 s’affiche comme dans la
ISOLATED
sortie de la commande. -
Recovery (Récupération) : le noeud est automatiquement récupéré lorsque l’autre noeud est activé et que l’ICL peut échanger des informations système ou lorsque vous supprimez l’instruction
shutdown-on-failure
et validez la configuration.Utilisez la
delete chassis high-availability services-redundancy-group 0 shutdown-on-failure
pour supprimer l’instruction.Si la solution ci-dessus n’est pas adaptée à votre environnement, vous pouvez utiliser l’option
install-on-failure-route
. Dans cette option, la configuration de haute disponibilité multinœud utilise une route de signal définie pour une gestion plus harmonieuse de la situation ci-dessus à l’aide des options de stratégie de routage, ce qui est similaire à l’approche de route de signal actif et de signal de secours disponible dans SRG1+.
Surveillance flexible des chemins
À partir de la version 23.4R1 de Junos OS, nous avons ajouté de nouvelles améliorations aux fonctionnalités de surveillance de chemin existantes suivantes :
- Surveillance IP
- Surveillance BFD
- Surveillance des interfaces
Les améliorations permettent d’affiner le contrôle de la fonctionnalité de surveillance des chemins :
- Extension de la surveillance pour SRG0 en plus de SRG1+
- Regroupement des fonctions de surveillance
- Prise en charge de la surveillance en fonction de la direction associée à un chemin de groupe de redondance de services (SRG)
- Ajout de pondérations associées à chaque fonction de surveillance
En regroupant les fonctions associées, le système peut les traiter comme une unité, ce qui peut conduire à un calcul et à une utilisation des ressources plus efficaces.
- Objets de surveillance SRG
- Configuration de la surveillance des chemins
- Vérifier la configuration des objets de surveillance
Objets de surveillance SRG
Comprenons le concept de surveillance des objets à l’aide de l’illustration suivante.

Vous pouvez configurer les options de surveillance par groupe de redondance de service. En d’autres termes, en cas de défaillance d’éléments spécifiques de la passerelle SRG, celle-ci peut basculer vers l’autre nœud. Chaque SSR comprend un ou plusieurs objets de surveillance.
Les fonctionnalités de surveillance disponibles dans les objets de surveillance sont les suivantes : l’activité BFD, la surveillance des interfaces et la surveillance IP. Chacune de ces caractéristiques est associée à une valeur seuil et à des attributs de pondération.
Au sein d’un objet monitor, chaque fois que l’objet particulier ne parvient pas à déclencher un basculement à la suite d’une surveillance IP/interface/BFD, le système considère l’événement comme un échec de surveillance. Le logiciel ajoute le nombre en fonction du poids de l’objet défaillant.
Lorsque le nombre dépasse la valeur seuil de IP/interface/BFD, le système ajoute le nombre à la valeur seuil de l'objet de surveillance parent.
Lorsque la somme des seuils de tous les objets de surveillance liés au SRG est égale ou supérieure à la valeur de seuil configurée sur le SRG, le système déclenche un échec du moniteur pour ce SRG. La SSR bascule sur l’autre nœud.
Configuration de la surveillance des chemins
Considérons l’exemple suivant pour la topologie illustrée à la Figure 6. Dans cette configuration, nous configurons des options de surveillance de chemin pour SRG1 sur l’équipement Node 2.

Dans cet exemple, pour configurer les options de surveillance de chemin :
- Utilisez une interface Ethernet agrégée (ae) pour la liaison inter-châssis (ICL) et utilisez des interfaces xe-1/0/x pour la connexion aux routeurs voisins.
- Créez deux objets-moniteurs « réseau-A » et « réseau-B ». Les objets monitor-réseau A et réseau B incluent toutes les adresses IP et interfaces configurées entre le périphérique SRX Series et les routeurs voisins.
- Configurez BFD pour surveiller les routes voisines.
- Configurez la surveillance IP pour surveiller les routes qui ne sont pas directement connectées à SRG1.
- Configurez la surveillance des interfaces sur les liaisons directement connectées ou les next-hops.
Le tableau suivant présente les exemples de pondération et les affectations de seuils.
Surveiller les objets |
BFD |
IP |
Interface |
Seuil d’objet moniteur |
Seuil de la SSR |
|||
---|---|---|---|---|---|---|---|---|
Seuil |
Poids |
Seuil |
Poids |
Seuil |
Poids |
|
|
|
réseau-A | 100 |
50 |
100 |
50 (10.10.10.1, 10.20.20.1, 10.30.30.1) |
100 |
25 (XE-1/0/1 et XE-1/0/2) 50 (AE0 et AE1) |
100 |
100 |
réseau-B | 100 |
50 |
100 |
50 (10.11.11.1, 10.12.12.1, 10.13.13.1) | 100 |
25 (XE-1/0/3 et XE-1/0/4) 50 (AE2 et AE3) |
200 |
- Vous pouvez configurer jusqu’à 10 objets de surveillance par SSR.
- Vous pouvez configurer la surveillance SRG comme dans Junos OS 23.4 (avec SRG threshold et monitoring-objects) ou configurer les options de surveillance comme elles étaient prises en charge avant Junos OS version 23.4R1. La combinaison des deux styles de configuration n’est pas prise en charge.
- La configuration des objets monitor-objects est la même que sur SRG 0 et SRG1+.
Exemples de configuration :
Dans l’extrait de configuration suivant, le groupe de redondance de service (SRGx) inclut deux objets moniteur : réseau-A et réseau-B. Chacun de ces objets de surveillance dispose d’une surveillance IP, d’une surveillance d’interface et d’une détection BFD configurées avec des poids et des valeurs seuils respectifs.
- Définissez la valeur de seuil SRG.
set chassis high-availability services-redundancy-group x monitor srg-threshold 100
- Configurer monitor-object
network-A
.- Définissez la valeur seuil de l’objet moniteur.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A object-threshold 100
-
Configurez les options de surveillance BFD.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A bfd-liveliness threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A bfd-liveliness dst-ip 10.1.1.1 src-ip 10.1.1.2 session-type multi-hop weight 100
-
Configurez les valeurs de poids et de seuil pour la surveillance IP.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 10.10.10.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 20.20.20.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 30.30.30.1 weight 50
- Configurez les valeurs de poids et de seuil pour la surveillance des interfaces.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name xe-1/0/1 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name xe-1/0/2 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name ae0 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name ae1 weight 50
- Définissez la valeur seuil de l’objet moniteur.
-
Configurer monitor-object
network-B
.-
Définissez la valeur seuil de l’objet moniteur.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B object-threshold 200
-
Configurez la surveillance BFD dans l’objet monitor.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B bfd-liveliness threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B bfd-liveliness dst-ip 10.2.2.1 src-ip 10.2.2.2 session-type multi-hop weight 100
-
Configurez les valeurs de poids et de seuil pour la surveillance IP.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.11.11.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.21.21.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.31.31.1 weight 50
-
Configurez les valeurs de poids et de seuil pour la surveillance des interfaces.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name xe-1/0/3 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name xe-1/0/4 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name ae2 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name ae3 weight 50
-
Prenons le cas de network-B monitor-object dans l’exemple.
Le système a une valeur seuil de 100 pour la surveillance des interfaces et des pondérations attribuées pour les interfaces membres (50, 50, 25 et 25). Si une interface de poids 50 tombe en panne, la valeur de poids de l’interface (50) est ajoutée au nombre et comparée à la valeur seuil de la surveillance de l’interface. En d’autres termes, le nombre est égal à 50 et le seuil d’interface est égal à 100. Le nombre est toujours inférieur à la valeur seuil de l’interface.
Si une autre interface de poids 50 tombe en panne, le nombre est incrémenté de 50 et comparé à la valeur seuil de la surveillance de l’interface. Le nombre est maintenant égal à la valeur seuil de l’interface 100. Comme le nombre est égal à la valeur de seuil, le système ajoute cette valeur (100) au nombre de l'objet moniteur (réseau-B). La valeur seuil de monitor-object network-B est 200. Le nombre (100) est toujours inférieur à la valeur seuil de object-monitor.
De même, si le moniteur IP ou le moniteur BFD atteignent également leurs valeurs seuils respectives et s'ajoutent au nombre de moniteurs d'objets, le nombre est incrémenté et comparé à la valeur de seuil de moniteur d'objets. Une fois que le nombre supprime la valeur seuil du moniteur d'objets, le système ajoute le nombre au nombre de SRG-1 (service-redundancy-group). Si la somme du nombre de moniteurs d'objets réseau A et réseau B dépasse la valeur seuil de SRG-1, le système déclenche le basculement vers un autre nœud.
Vérifier la configuration des objets de surveillance
Utilisez les show chassis high-availability services-redundancy-group 1
commandes ou show chassis high-availability services-redundancy-group <id> monitor-object <name>
.
L’exemple suivant montre la sortie de show chassis high-availability services-redundancy-group 1
la commande.
user@host> show chassis high-availability services-redundancy-group 1 SRG failure event codes: BF BFD monitoring IP IP monitoring IF Interface monitoring PM Path monitoring CP Control Plane monitoring ............................................. SRG Path Monitor Info: SRG Monitor Status: UP SRG Monitor Threshold: 100 SRG Monitor Weight: 0 SRG Monitor Failed Objects: [ NONE ] Object Name: Network-B Object Status: UP Object Monitored Entries: [ IP IF BFD ] Object Failures: [ IP ] Object Threshold: 200 Object Current Weight: 0 Object Name: Network-A Object Status: UP Object Monitored Entries: [ IP IF BFD] Object Failures: NONE Object Threshold: 100 Object Current Weight: 0
Dans la sortie de la commande, vous pouvez voir l’état des objets Network-B
de surveillance et Network-A
. Vous pouvez également remarquer que les détails de l’objet d’échec dans la sortie, ainsi que leurs valeurs seuils et leur poids.