AUF DIESER SEITE
Überwachungsoptionen für hohe Verfügbarkeit mit mehreren Knoten
Arten von Überwachungsfunktionen
Eine Hochverfügbarkeits-Fehlererkennung überwacht sowohl System, Software als auch Hardware auf interne Fehler. Das System kann auch Probleme mit der Netzwerkkonnektivität oder der Verbindungskonnektivität mithilfe von Schnittstellenüberwachung, BFD-Pfadüberwachung und IP-Überwachung überwachen, um die Erreichbarkeit von weiter entfernten Zielen zu erkennen.
Tabelle 1 enthält Details zu den verschiedenen Überwachungstypen, die in Multinode-Hochverfügbarkeit verwendet werden.
| Montitoring-Typ | Was ist | der Umfang des Erkennungstyps | |
|---|---|---|---|
| BFD-Überwachung | Überwacht die Erreichbarkeit bis zum nächsten Hop, indem der Link Layer zusammen mit der tatsächlichen Verbindung untersucht wird. |
|
|
| IP-Überwachung | Überwacht die Konnektivität zu Hosts oder Services, die sich jenseits direkt verbundener Schnittstellen oder Next-Hops befinden. |
|
|
| Überwachung von Schnittstellen | Untersucht, ob die Verbindungsschicht betriebsbereit ist oder nicht. |
Ausfälle von Verbindungen |
|
Wenn die Überwachung in Multinode-Hochverfügbarkeit einen Verbindungsfehler zu einem Host oder Service erkennt, markiert sie den betroffenen Pfad als inaktiv/nicht verfügbar und markiert die entsprechenden Service Route Groups (SRGs) am betroffenen Knoten als nicht zulässig. Die betroffenen SRGs werden zustandsbehaftet auf den anderen Knoten übergehen, ohne dass es zu einer Unterbrechung des Datenverkehrs kommt.
Um zu verhindern, dass Datenverkehr verloren geht, trifft Multinode High Availability die folgenden Vorsichtsmaßnahmen:
- Layer-3-Modus: Routen werden neu gezeichnet, sodass der Datenverkehr korrekt umgeleitet wird.
- Standard-Gateway oder Hybrid-Modus: Der neue aktive Knoten für die SRG sendet ein GARP (Gratuitous ARP) an den angeschlossenen Switch, um die Umleitung des Datenverkehrs sicherzustellen
Multinode-Szenarien für hohe Verfügbarkeit
In den folgenden Abschnitten werden mögliche Fehlerszenarien beschrieben: wie ein Fehler erkannt wird, welche Wiederherstellungsaktion zu ergreifen ist und ggf. welche Auswirkungen der Fehler auf das System hat.Knoten-Ausfall
Hardware-Fehler
- Ursache: Ein Hardwarefehler Komponente oder ein Umweltproblem wie ein Stromausfall.
- Erkennung— in Multinode-Hochverfügbarkeit
- Betroffenes Gerät/Knoten nicht zugänglich
- Der SRG1-Status ändert sich auf
INELIGIBLEauf dem Knoten mit Hardwarefehler.
- Auswirkung: Der Datenverkehr wird per Failover auf den anderen Knoten (falls fehlerfrei) durchgeführt, wie in Abbildung 1 dargestellt. .
Abbildung 1: Hardwarefehler bei Multinode-Hochverfügbarkeit
- Wiederherstellung: Die Wiederherstellung des Fehlers erfolgt, wenn Sie den Hardwarefehler des Gehäuses beheben (z. B. Ersetzen oder Reparieren der ausgefallenen Hardware Komponente.
- Ergebnisse – Überprüfen Sie den Status mit den folgenden Befehlen:
System-/Software-Fehler
- Ursache: Ein Fehler im Softwareprozess oder -dienst oder Probleme mit dem Betriebssystem.
- Erkennung— in Multinode-Hochverfügbarkeit
- Betroffenes Gerät/Knoten nicht zugänglich
- Ändert den Systemstatus auf
INELIGIBLEdem betroffenen Knoten mit System-/Softwarefehler.
- Auswirkung: Der Datenverkehr wird zum anderen Knoten Failover, wenn er fehlerfrei ist, wie in Abbildung 2 dargestellt
Abbildung 2: Softwarefehler bei Multinode-Hochverfügbarkeit
- Wiederherstellung: Stellt automatisch und ordnungsgemäß nach dem Ausfall wieder her, sobald das Problem behoben wurde. Der Backup-Knoten, der die aktive Rolle übernommen hat, bleibt weiterhin aktiv. Der ehemals aktive Knoten bleibt als Sicherungsknoten erhalten.
- Ergebnisse – Überprüfen Sie den Status mit dem Befehl show chassis high-availability information detail.
Netzwerk-/Verbindungsfehler
- Physischer Schnittstellenfehler (Link)
- Interchassis Link (ICL)-Fehler
- Knoten bleibt im isolierten Zustand
Physischer Schnittstellenfehler (Link)
- Ursache: Ein Ausfall der Schnittstellen kann auf Ausfälle von Netzwerkgeräten, Störungen mit physischen Kabeln oder inkonsistente Konfigurationen zurückzuführen sein.
- Erkennung— in Multinode-Hochverfügbarkeit
- Auf das betroffene Gerät/den betroffenen Knoten kann nicht zugegriffen werden.
- Der SRG1-Status ändert sich auf
INELIGIBLEauf dem betroffenen Knoten mit Netzwerk- oder Verbindungsausfall (wenn der Schnittstellenmonitor konfiguriert ist). Pfadkonnektivität kann auch mit BFD oder IP-Überwachung erkannt werden und ein Ereignis basierend auf einer konfigurierten Aktion auslösen.
- Auswirkung: Eine Änderung des Verbindungsstatus der Schnittstellen löst ein Failover aus. Der Sicherungsknoten übernimmt die aktive Rolle, und Services, die auf dem ausgefallenen Knoten ausgeführt wurden, werden auf einen anderen Knoten migriert, wie in Abbildung 3 dargestellt.
Abbildung 3: Schnittstellenfehler
-
Konfiguration: Verwenden Sie die folgende Konfigurationsanweisung, um die BFD-Überwachung und die Schnittstellenüberwachung zu konfigurieren:
set chassis high-availability services-redundancy-group <1> monitor bfd-liveliness <source-ip-address> <destination-ip-address> routing-instance <routing-instance-name> <single-hop| multihop> <interface-name>
set chassis high-availability services-redundancy-group <1> monitor interface <interface-name>
Alle für den Datenverkehrsfluss kritischen Links sollten überwacht werden.
Checkout-Beispiel: Konfigurieren Sie Multinode-Hochverfügbarkeit in einem Layer-3-Netzwerk, um vollständige Konfigurationsdetails zu erhalten.
- Wiederherstellung: Wird wiederhergestellt, wenn Sie die ausgefallene Schnittstelle reparieren/ersetzen. Nachdem der Netzwerk-/Konnektivitätsfehler behoben ist, wechselt SRG1 vom Status "INAUTHORIZED" in den Status "BACKUP". Der neu aktive Knoten meldet weiterhin bessere Metriken an seinen vorgeschalteten Router und verarbeitet den Datenverkehr.
- Ergebnisse – Überprüfen Sie den Status mit den folgenden Befehlen:
-
Informationen zum Konfigurieren von Schnittstellen in MNHA finden Sie unter Beispiel: Konfigurieren der Multinode-Hochverfügbarkeit in einem Layer-3-Netzwerk. Informationen zur Fehlerbehebung von Schnittstellen finden Sie unter Fehlerbehebung bei Schnittstellen.
Interchassis Link (ICL)-Fehler
- Ursache: Ein Fehler in ICL kann auf Netzwerkausfälle oder inkonsistente Konfigurationen zurückzuführen sein.
- Erkennung— Bei Multinode-Hochverfügbarkeit können sich die Knoten nicht gegenseitig erreichen und initiieren eine Sondierung zur Bestimmung der Aktivität (ICMP-Sonde).
- Auswirkung— In einem Multinode-Hochverfügbarkeitssystem verbindet ICL aktive und Backup-Knoten; Wenn die ICL ausfällt, bemerken beide Geräte diese Änderung und starten die Aktivitätssondierung (ICMP-Sonde). Die Aktivitätssondierung wird durchgeführt, um den Knoten zu bestimmen, der für jedes SRG1+ eine aktive Rolle übernehmen kann. Basierend auf dem Testergebnis wechselt einer der Knoten in den aktiven Zustand.
Wie in Abbildung 4 dargestellt, sinkt der ICL zwischen SRX-1 und SRX-2. Beide Geräte können sich nicht gegenseitig erreichen und Aktivitätstests an den vorgeschalteten Router senden. Da sich SRX-1 in der Router-Konfiguration auf einem höheren bevorzugten Pfad befindet, übernimmt es eine aktive Rolle, verarbeitet weiterhin Datenverkehr und meldet einen höheren Präferenzpfad. Der andere übernimmt die Backup-Rolle.
Abbildung 4: ICL-Ausfall bei Multinode-Hochverfügbarkeit
-
Konfiguration: Verwenden Sie die folgende Konfigurationsanweisung, um die Aktivitätsprüfung zu konfigurieren:
set chassis high-availability services-redundancy-group <1> activeness-probe <destination-ip-address> routing-instance <routing-instance-name>
Vollständige Konfigurationsdetails finden Sie unter Konfigurieren der Multinode-Hochverfügbarkeit in einem Layer-3-Netzwerk .
- Ergebnisse – Überprüfen Sie den Status mit den folgenden Befehlen:
show chassis high-availability information detailshow chassis high-availability services-redundancy-group 1-
Überprüfen Sie die ICMP-Paketantwort vom vorgeschalteten Router mit der Ping-Option. Beispiel:
ping <activeness-probe-dest-ip> source <activeness-probe-source-ip> routing-instance <routing-instance-name>.
-
Wiederherstellung: Sobald einer der Knoten die aktive Rolle übernimmt, startet Multinode-Hochverfügbarkeit den Kaltsynchronisierungsprozess neu und synchronisiert die Control-Plane-Services (IPSec-VPN) neu. SRG-Statusinformationen werden zwischen den Knoten erneut ausgetauscht.
Knoten bleibt im isolierten Zustand
- Ursache: In einem Multinode-Setup mit hoher Verfügbarkeit bleibt der Knoten nach einem Neustart im isolierten Zustand, und die zugehörigen Schnittstellen bleiben weiterhin inaktiv, wenn:
-
Inter Chassis Link (ICL) hat nach dem Hochfahren keine Verbindung zum anderen Knoten, bis die Kaltsynchronisierung abgeschlossen ist
und
-
Die
shutdown-on-failureOption ist auf SRG0 konfiguriertHinweis:Die obige Ursache kann auch auftreten, wenn das andere Gerät außer Betrieb ist.
-
- Erkennung: Der SRG0-Status wird wie
ISOLATEDin der Befehlsausgabe angezeigt. -
Wiederherstellung: Der Knoten stellt sich automatisch wieder her, wenn der andere Knoten online geht und die ICL Systeminformationen austauschen kann oder wenn Sie die
shutdown-on-failureAnweisung entfernen und die Konfiguration bestätigen.Verwenden Sie die
delete chassis high-availability services-redundancy-group 0 shutdown-on-failure, um die Anweisung zu entfernen.Wenn die obige Lösung für Ihre Umgebung nicht geeignet ist, können Sie die
install-on-failure-routeOption verwenden. Bei dieser Option verwendet das Multinode-Hochverfügbarkeits-Setup eine definierte Signalroute für eine elegantere Behandlung der oben genannten Situation mithilfe von Routing-Richtlinien-Optionen, die dem in SRG1+ verfügbaren Ansatz für aktive Signalroute und Backup-Signal-Route ähneln.
Flexible Pfadüberwachung
Ab Junos OS Version 23.4R1 haben wir neue Verbesserungen für die folgenden vorhandenen Pfadüberwachungsfunktionen hinzugefügt:
- IP-Überwachung
- BFD-Überwachung
- Überwachung von Schnittstellen
Die Verbesserungen sorgen für eine detailliertere Steuerung der Pfadüberwachungsfunktion, indem sie:
- Erweiterung des Monitorings für SRG0 zusätzlich zu SRG1+
- Gruppierung von Überwachungsfunktionen
- Unterstützung der Überwachung basierend auf der Richtung, die mit einem SRG-Pfad (Service Redundanz-Group) verbunden ist
- Hinzufügen von Gewichten, die den einzelnen Überwachungsfunktionen zugeordnet sind
Durch die Gruppierung verwandter Funktionen kann das System sie als Einheit verarbeiten, was zu einer effizienteren Berechnung und Ressourcennutzung führen kann.
- SRG-Monitoring-Objekte
- Konfiguration der Pfadüberwachung
- Konfiguration der Überwachungsobjekte prüfen
SRG-Monitoring-Objekte
Verstehen wir das Konzept der Überwachung von Objekten anhand der folgenden Abbildung.
Sie können die Überwachungsoptionen pro Service-Redundanz-Gruppe konfigurieren. Das heißt, wenn bestimmte Elemente in der SRG ausfallen, kann diese SRG ein Failover auf den anderen Knoten durchführen. Jede SRG enthält ein oder mehrere Überwachungsobjekte.
Die in Überwachungsobjekten verfügbaren Überwachungsfunktionen sind: BFD-Liveness, Schnittstellenüberwachung und IP-Überwachung. Jedem dieser Features sind ein Schwellenwert und Gewichtungsattribute zugeordnet.
Wenn innerhalb eines Monitorobjekts das bestimmte Objekt aufgrund der IP-/Schnittstellen-/BFD-Überwachung keinen Failover auslöst, betrachtet das System das Ereignis als Überwachungsfehler. Die Software addiert die Anzahl basierend auf der Gewichtung des ausgefallenen Objekts.
Wenn die Anzahl den Schwellenwert von IP/Schnittstelle/BFD überschreitet, addiert das System die Anzahl zum Schwellenwert des übergeordneten Überwachungsobjekts.
Wenn die Summe der Schwellenwerte aller an die SRG gebundenen Monitoring-Objekte gleich oder größer als der auf der SRG konfigurierte Schwellenwert ist, löst das System einen Monitorfehler für diese SRG aus. SRG führt ein Failover auf den anderen Knoten durch.
Konfiguration der Pfadüberwachung
Betrachten wir das folgende Beispiel für die in Abbildung 6 gezeigte Topologie. In diesem Setup konfigurieren wir Pfadüberwachungsoptionen für SRG1 auf dem Gerät von Node 2.
für die Pfadüberwachung
In diesem Beispiel konfigurieren Sie die Optionen für die Pfadüberwachung:
- Verwenden Sie eine aggregierte Ethernet-Schnittstelle (ae) für Inter-Chassis Link (ICL) und xe-1/0/x-Schnittstellen für die Verbindung zu benachbarten Routern.
- Erstellen Sie zwei Monitor-Objekte "Netzwerk-A" und "Netzwerk-B". Sowohl das Netzwerk-A- als auch das Netzwerk-B-Monitorobjekt enthalten alle IP-Adressen und Schnittstellen, die zwischen dem Gerät der SRX-Serie und benachbarten Routern konfiguriert sind.
- Konfigurieren Sie BFD für die Überwachung der benachbarten Routen.
- Konfigurieren Sie die IP-Überwachung, um die Routen zu überwachen, die nicht direkt mit SRG1 verbunden sind.
- Konfigurieren Sie die Schnittstellenüberwachung für direkt verbundene Verbindungen oder Next-Hops.
Die folgende Tabelle zeigt Beispielgewichte und Schwellenwertzuweisungen.
| Objekte überwachen |
BFD |
IP (IP) |
Schnittstelle |
Monitor-Objekt-Schwellenwert |
SRG-Schwellenwert |
|||
|---|---|---|---|---|---|---|---|---|
| Schwellenwert |
Gewicht |
Schwellenwert |
Gewicht |
Schwellenwert |
Gewicht |
|||
| Netzwerk-A | 100 |
50 |
100 |
50 (10.10.10.1, 10.20.20.1, 10.30.30.1) |
100 |
25 (xe-1/0/1 und xe-1/0/2) 50 (AE0 und AE1) |
100 |
100 |
| Netzwerk-B | 100 |
50 |
100 |
50 (10.11.11.1, 10.12.12.1, 10.13.13.1) | 100 |
25 (xe-1/0/3 und xe-1/0/4) 50 (AE2 und AE3) |
200 |
|
- Sie können bis zu 10 Überwachungsobjekte pro SRG konfigurieren.
- Sie können die SRG-Überwachung wie in Junos OS 23.4 konfigurieren (mit SRG-Schwellenwert und Überwachungsobjekten) oder Überwachungsoptionen konfigurieren, wie sie vor Junos OS Version 23.4R1 unterstützt werden. Die Kombination beider Konfigurationsstile wird nicht unterstützt.
- Die Konfiguration von Monitor-Objekten ist die gleiche wie auf SRG 0 und SRG1+.
Konfigurationsbeispiele:
Im folgenden Konfigurationsausschnitt enthält die Service-Redundanz-Gruppe (SRGx) zwei Monitorobjekte: network-A und network-B. Für jedes dieser Überwachungsobjekte sind IP-Überwachung, Schnittstellenüberwachung und BFD-Erkennung mit entsprechenden Gewichten und Schwellenwerten konfiguriert.
- SRG-Schwellenwert festlegen.
set chassis high-availability services-redundancy-group x monitor srg-threshold 100
- Monitor-Objekt
network-Akonfigurieren .- Legen Sie den Schwellenwert für das Monitorobjekt fest.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A object-threshold 100
-
Konfigurieren Sie BFD-Überwachungsoptionen.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A bfd-liveliness threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A bfd-liveliness dst-ip 10.1.1.1 src-ip 10.1.1.2 session-type multi-hop weight 100
-
Konfigurieren Sie Gewichtungs- und Schwellenwerte für die IP-Überwachung.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 10.10.10.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 20.20.20.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A ip destination-ip 30.30.30.1 weight 50
- Konfigurieren Sie Gewichtungs- und Schwellenwerte für die Schnittstellenüberwachung.
set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name xe-1/0/1 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name xe-1/0/2 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name ae0 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-A interface interface-name ae1 weight 50
- Legen Sie den Schwellenwert für das Monitorobjekt fest.
-
Monitor-Objekt
network-Bkonfigurieren .-
Legen Sie den Schwellenwert für das Monitorobjekt fest.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B object-threshold 200
-
Konfigurieren Sie die BFD-Überwachung im Monitor-Objekt.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B bfd-liveliness threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B bfd-liveliness dst-ip 10.2.2.1 src-ip 10.2.2.2 session-type multi-hop weight 100
-
Konfigurieren Sie Gewichtungs- und Schwellenwerte für die IP-Überwachung.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.11.11.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.21.21.1 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B ip destination-ip 10.31.31.1 weight 50
-
Konfigurieren Sie Gewichtungs- und Schwellenwerte für die Schnittstellenüberwachung.
set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface threshold 100 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name xe-1/0/3 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name xe-1/0/4 weight 25 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name ae2 weight 50 set chassis high-availability services-redundancy-group x monitor monitor-object network-B interface interface-name ae3 weight 50
-
Nehmen wir den Fall von network-B-monitor-object im Beispiel.
Das System hat einen Schwellenwert von 100 für die Schnittstellenüberwachung und gewichtete die Member-Schnittstellen (50, 50, 25 und 25). Wenn eine Schnittstelle mit dem Gewicht 50 ausfällt, wird der Gewichtungswert der Schnittstelle (50) zur Zählung addiert und mit dem Schwellenwert der Schnittstellenüberwachung verglichen. Das heißt, die Anzahl beträgt 50 und der Schnittstellenschwellenwert 100. Die Anzahl ist immer noch kleiner als der Schnittstellenschwellenwert.
Wenn eine andere Schnittstelle mit der Gewichtung 50 ausfällt, wird die Anzahl um 50 erhöht und mit dem Schwellenwert der Schnittstellenüberwachung verglichen. Die Anzahl entspricht jetzt dem Schnittstellenschwellenwert 100. Da die Anzahl dem Schwellenwert entspricht, addiert das System diesen Wert (100) zur Anzahl des Monitorobjekts (Netzwerk-B). Der Schwellenwert für Monitor-Objekt Netzwerk-B-B ist 200. Die Anzahl (100) ist immer noch kleiner als der Schwellenwert des Objektmonitors.
Wenn der IP-Monitor oder der BFD-Monitor ebenfalls ihre jeweiligen Schwellenwerte erreicht und zur Anzahl des Objektmonitors addiert wird, wird die Anzahl erhöht und mit dem Schwellenwert des Objektmonitors verglichen. Sobald die Anzahl den Schwellenwert des Objektmonitors unterdrückt, addiert das System die Anzahl zur Anzahl der Service-Redundanz-Gruppe (SRG-1). Wenn die Summe der Anzahl der Objektmonitore von Netzwerk-A und Netzwerk-B den Schwellenwert von SRG-1 überschreitet, löst das System ein Failover auf einen anderen Knoten aus.
Konfiguration der Überwachungsobjekte prüfen
Verwenden Sie die show chassis high-availability services-redundancy-group 1 Befehle oder show chassis high-availability services-redundancy-group <id> monitor-object <name> .
Das folgende Beispiel zeigt die Ausgabe des show chassis high-availability services-redundancy-group 1 Befehls.
user@host> show chassis high-availability services-redundancy-group 1
SRG failure event codes:
BF BFD monitoring
IP IP monitoring
IF Interface monitoring
PM Path monitoring
CP Control Plane monitoring
.............................................
SRG Path Monitor Info:
SRG Monitor Status: UP
SRG Monitor Threshold: 100
SRG Monitor Weight: 0
SRG Monitor Failed Objects: [ NONE ]
Object Name: Network-B
Object Status: UP
Object Monitored Entries: [ IP IF BFD ]
Object Failures: [ IP ]
Object Threshold: 200
Object Current Weight: 0
Object Name: Network-A
Object Status: UP
Object Monitored Entries: [ IP IF BFD]
Object Failures: NONE
Object Threshold: 100
Object Current Weight: 0
In der Befehlsausgabe sehen Sie den Status sowohl von Überwachungsobjekten Network-B als Network-Aauch von . Sie können auch feststellen, dass die Fehlerobjektdetails zusammen mit ihren Schwellenwerten und ihrer Gewichtung in der Ausgabe enthalten sind.