Configuration des paramètres de basculement du cluster
Les équipements SRX Series d’un cluster de châssis utilisent des transmissions de battements de cœur pour déterminer « l’intégrité » de la liaison de contrôle. Si le nombre de battements cardiaques manqués a atteint le seuil configuré, le système évalue si une condition de défaillance existe. Pour plus d’informations, consultez les sujets suivants :
Présentation des battements de cœur, des défaillances et de la récupération des liaisons de contrôle des clusters de châssis
- Comprendre les battements de cœurs des liaisons de contrôle de cluster de châssis
- Présentation de la défaillance et de la récupération des liaisons de contrôle de cluster de châssis
Comprendre les battements de cœurs des liaisons de contrôle de cluster de châssis
Vous spécifiez le seuil de battements cardiaques et l’intervalle de battements de cœur lorsque vous configurez le cluster de châssis.
Le système surveille par défaut l'état de la liaison de contrôle.
Pour les liaisons à double contrôle, qui sont prises en charge sur les lignes SRX5600 et SRX5800, le processus jsrpd (Juniper Services Redundancy Protocol) envoie et reçoit les messages de battement de cœur de contrôle sur les deux liaisons de contrôle. Tant que des battements de cœur sont reçus sur l’une des liaisons de contrôle, Junos OS considère l’autre nœud comme vivant.
Le produit de l’option heartbeat-threshold
et l’option définissent le heartbeat-interval
temps d’attente avant le déclenchement du basculement. Les valeurs par défaut de ces options produisent un temps d’attente de 3 secondes. Un seuil de battements de 5 et un intervalle de battements de 1 000 millisecondes donnerait un temps d’attente de 5 secondes. Fixer le seuil de battements cardiaques à 4 et l’intervalle de battements de 1 250 millisecondes donnerait également un temps d’attente de 5 secondes.
Dans un environnement de cluster de châssis, si plus de 1 000 interfaces logiques sont utilisées, il est recommandé d’augmenter le temps de battement de cœur du cluster de 3 secondes par défaut. À la capacité maximale d’un SRX4600, d’un SRX5400, d’un SRX5600 ou d’un équipement SRX5800, nous vous recommandons d’augmenter le temps de configuration avant le basculement à au moins 5 secondes.
Présentation de la défaillance et de la récupération des liaisons de contrôle de cluster de châssis
En cas d’échec de la liaison de contrôle, Junos OS modifie l’état de fonctionnement du nœud secondaire pour qu’il ne soit pas éligible pour un compte à rebours de 180 secondes. Si la liaison de structure échoue également pendant 180 secondes, Junos OS change le nœud secondaire en nœud principal ; sinon, après 180 secondes, l’état du nœud secondaire passe à désactivé.
Lorsque la liaison de contrôle est en panne, un message de journal système est généré.
Une défaillance de la liaison de contrôle est définie comme ne pas recevoir de battements de cœur sur la liaison de contrôle alors que les battements cardiaques sont toujours reçus sur la liaison de structure.
En cas de défaillance de liaison de contrôle légitime, le groupe de redondance 0 reste primaire sur le nœud sur lequel il est actuellement principal, les groupes de redondance inactifs x sur le nœud principal deviennent actifs et le nœud secondaire entre dans un état désactivé.
Lorsque le nœud secondaire est désactivé, vous pouvez toujours vous connecter au port de gestion et exécuter des diagnostics.
Pour déterminer si une défaillance de liaison de contrôle légitime s’est produite, le système s’appuie sur des signaux de liveline redondants envoyés à la fois sur la liaison de contrôle et sur la liaison de structure.
Le système transmet régulièrement des sondes sur la liaison de structure et des signaux de battements de cœur sur la liaison de contrôle. Les sondes et les signaux de battements de cœur partagent un numéro de séquence commun qui les mappe à un événement temporel unique. Junos OS identifie une défaillance de liaison de contrôle légitime si les deux conditions suivantes existent :
Le nombre seuil de battements cardiaques a été perdu.
Au moins une sonde avec un numéro de séquence correspondant à celui d’un signal de battement de cœur manquant a été reçue sur la liaison de la structure.
Si la liaison de contrôle échoue, le compte à rebours de 180 secondes commence et l’état du nœud secondaire n’est pas éligible. Si la liaison de structure échoue avant que le compte à rebours de 180 secondes n’atteigne zéro, le nœud secondaire devient primaire car la perte des deux liaisons est interprétée par le système comme indiquant que l’autre nœud est mort. Parce que la perte simultanée de contrôle et de liaisons de structure signifie que les nœuds ne synchronisent plus les états ni ne comparent les priorités, les deux nœuds peuvent donc temporairement devenir primaires, ce qui n’est pas un état opérationnel stable. Cependant, une fois la liaison de contrôle rétablie, le nœud ayant la valeur de priorité supérieure devient automatiquement primaire, l’autre nœud devient secondaire et le cluster revient à un fonctionnement normal.
En cas de défaillance d’une liaison de contrôle légitime, les conditions suivantes s’appliquent :
Le groupe de redondance 0 reste primaire sur le nœud sur lequel il est actuellement principal (et donc son moteur de routage reste actif), et tous les groupes de redondance x sur le nœud deviennent primaires.
Si le système ne peut pas déterminer quel moteur de routage est principal, le nœud ayant la valeur de priorité la plus élevée pour le groupe de redondance 0 est primaire et son moteur de routage est actif. (Vous configurez la priorité de chaque nœud lorsque vous configurez l’instruction pour le
redundancy-group
groupe de redondance 0.)Le système désactive le nœud secondaire.
Pour récupérer un équipement à partir du mode désactivé, vous devez redémarrer l’équipement. Lorsque vous redémarrez le nœud désactivé, le nœud synchronise son état dynamique avec le nœud principal.
Si vous apportez des modifications à la configuration alors que le nœud secondaire est désactivé, exécutez la commande de validation pour synchroniser la configuration après avoir redémarré le nœud. Si vous n’avez pas effectué de modifications de configuration, le fichier de configuration reste synchronisé avec celui du nœud principal.
Vous ne pouvez pas activer la préemption pour le groupe de redondance 0. Si vous souhaitez modifier le nœud principal pour le groupe de redondance 0, vous devez effectuer un basculement manuel.
Lorsque vous utilisez des liaisons de contrôle double (compatibles avec les équipements SRX5600 et SRX5800), notez les conditions suivantes :
Le trafic entrant ou sortant de l’hôte peut être impacté pendant 3 secondes au maximum lors d’une défaillance de liaison de contrôle. Par exemple, prenons un cas où le groupe de redondance 0 est primaire sur le nœud 0 et où il y a une session Telnet vers le moteur de routage via un port d’interface réseau sur le nœud 1. Si la liaison de contrôle actuellement active échoue, la session Telnet perdra des paquets pendant 3 secondes, jusqu’à ce que cet échec soit détecté.
Une défaillance de liaison de contrôle qui se produit alors que le processus de validation est en cours d’exécution sur deux nœuds peut entraîner une défaillance de validation. Dans ce cas, exécutez à nouveau la commande de validation après 3 secondes.
Pour les équipements SRX5600 et SRX5800, les liaisons à double contrôle nécessitent un deuxième moteur de routage sur chaque nœud du cluster de châssis.
Vous pouvez spécifier que la récupération des liaisons de contrôle soit effectuée automatiquement par le système en définissant l’instruction control-link-recovery
. Dans ce cas, une fois que le système a déterminé que la liaison de contrôle est saine, il lance un redémarrage automatique sur le nœud désactivé. Lorsque le nœud désactivé redémarre, le nœud rejoint à nouveau le cluster.
Exemple : configuration de la récupération des liaisons de contrôle de cluster de châssis
Cet exemple montre comment activer la récupération de la liaison de contrôle, ce qui permet au système de prendre automatiquement le relais après que la liaison de contrôle se rétablit d’une défaillance.
Exigences
Avant de commencer :
Comprendre les liaisons de contrôle des clusters de châssis. Voir comprendre le plan de contrôle du cluster de châssis et les liaisons de contrôle.
Comprendre les liaisons de contrôle double du cluster de châssis. Voir comprendre les liaisons de contrôle double du cluster de châssis.
Connecter des liaisons de contrôle double dans un cluster de châssis. Voir les connexions de liaison à double contrôle pour les pare-feu SRX Series dans un cluster de châssis.
Aperçu
Vous pouvez activer le système pour effectuer automatiquement la récupération des liaisons de contrôle. Une fois la liaison de contrôle récupérée, le système prend les mesures suivantes :
Il vérifie s’il reçoit au moins trois battements de cœur consécutifs sur la liaison de contrôle ou, dans le cas de liaisons à double contrôle (SRX5600 et équipements SRX5800 uniquement), sur l’une ou l’autre liaison de contrôle. Il s’agit de s’assurer que la liaison de contrôle n’est pas en état de battement et qu’elle est saine.
Une fois qu’il a déterminé que la liaison de contrôle est saine, le système lance un redémarrage automatique, quel que soit l’état du nœud (non éligible ou désactivé) en cas d’échec de la liaison de contrôle. Lorsque le nœud redémarre, il peut rejoindre le cluster. Aucune intervention manuelle n’est nécessaire.
Dans cet exemple, vous activez la récupération de liaisons de contrôle de cluster de châssis.
Configuration
Procédure
Procédure étape par étape
Pour activer la restauration de liaisons de contrôle en cluster de châssis :
Activez la récupération des liaisons de contrôle.
{primary:node0}[edit] user@host# set chassis cluster control-link-recovery
Si vous avez fini de configurer l’équipement, validez la configuration.
{primary:node0}[edit] user@host# commit