Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Überwachungsoptionen für hohe Verfügbarkeit mit mehreren Knoten

Arten der Überwachung

Eine Fehlererkennung mit hoher Verfügbarkeit überwacht sowohl das System, die Software als auch die Hardware auf interne Fehler. Das System kann auch Probleme mit der Netzwerkkonnektivität oder die Verbindungskonnektivität mithilfe von Schnittstellenüberwachung, BFD-Pfadüberwachung und IP-Überwachung überwachen, um die Erreichbarkeit weiter entfernter Ziele zu erkennen.

Tabelle 1 enthält Details zu den verschiedenen Überwachungstypen, die bei der Hochverfügbarkeit mit mehreren Knoten verwendet werden.

Tabelle 1: Überwachungstypen für Hochverfügbarkeit mit mehreren Knoten
Montitoring-Typ Was ist der Umfang der Erkennungsart
BFD-Überwachung Überwacht die Erreichbarkeit bis zum nächsten Hop, indem neben der tatsächlichen Verbindung auch die Verbindungsschicht untersucht wird.
  • Pfadfehler
  • Verbindungsfehler
  • Erkennt Fehler innerhalb der Routing-Konnektivität
  • Nicht vorgesehen für die Erkennung von Fehlern, die über direkte Verbindungen/Next-Hops hinausgehen.
IP-Überwachung

Überwacht die Konnektivität zu Hosts oder Services, die sich jenseits direkt verbundener Schnittstellen oder Next-Hops befinden.

  • Pfadfehler
  • Verbindungsfehler
  • Erkennt Fehler bei weiter entfernten Hosts oder Services.
  • Nicht vorgesehen für die Erkennung von Fehlern, die bei direkt verbundenen Links auftreten, oder von Next-Hop-Fehlern.
Schnittstellenüberwachung

Untersucht, ob die Verbindungsschicht betriebsbereit ist oder nicht.

Verbindungsfehler
  • Erkennt Fehler bei direkt verbundenen Verbindungen oder Next-Hops und Verbindungen zu weiter entfernten Hosts oder Services.
  • Nicht für die Überwachung des Pfads vorgesehen

Wenn bei der Überwachung in der Hochverfügbarkeit mit mehreren Knoten ein Verbindungsfehler zu einem Host oder Service erkannt wird, wird der betroffene Pfad als inaktiv/nicht verfügbar und die entsprechenden Service Route Groups (SRGs) auf dem betroffenen Knoten als nicht geeignet markiert. Die betroffenen SRGs werden zustandsbehaftet auf den anderen Knoten überführt, ohne dass es zu einer Unterbrechung des Datenverkehrs kommt.

Um zu verhindern, dass Datenverkehr verloren geht, trifft Multinode High Availability die folgenden Vorsichtsmaßnahmen:

  • Layer-3-Modus: Routen werden neu gezeichnet, damit der Datenverkehr korrekt umgeleitet wird
  • Standard-Gateway oder Hybrid-Modus: Der neue aktive Knoten für das SRG sendet ein GARP (Gratuitous ARP) an den angeschlossenen Switch, um die Umleitung des Datenverkehrs sicherzustellen

Multinode-Hochverfügbarkeits-Fehlerszenarien

In den folgenden Abschnitten werden mögliche Fehlerszenarien beschrieben: wie ein Fehler erkannt wird, welche Wiederherstellungsaktion zu ergreifen ist und ggf. welche Auswirkungen der Fehler auf das System hat.

Knotenausfall

Hardware-Fehler

  • Ursache: Eine fehlerhafte Hardwarekomponente oder ein Umgebungsproblem, z. B. ein Stromausfall.
  • Erkennung– bei Hochverfügbarkeit mit mehreren Knoten
    • Betroffenes Gerät/Knoten nicht erreichbar
    • Der SRG1-Status ändert sich auf INELIGIBLE dem Knoten mit Hardwarefehler.
  • Auswirkung: Der Datenverkehr führt ein Failover auf den anderen Knoten durch (falls fehlerfrei), wie in Abbildung 1 dargestellt. .
    Abbildung 1: Hardwarefehler in der Hochverfügbarkeit Hardware Failure in Multinode High Availability mit mehreren Knoten
  • Wiederherstellung: Die Wiederherstellung eines Fehlers erfolgt, wenn Sie den Fehler der Gehäusehardware beheben (z. B. die fehlerhafte Hardwarekomponente austauschen oder reparieren.
  • Ergebnisse: Überprüfen Sie den Status mit den folgenden Befehlen:

System-/Softwarefehler

  • Ursache: Ein Fehler in einem Softwareprozess, einem Dienst oder ein Problem mit dem Betriebssystem.
  • Erkennung– bei Hochverfügbarkeit mit mehreren Knoten
    • Betroffenes Gerät/Knoten nicht erreichbar
    • Ändert den Systemstatus auf INELIGIBLE den betroffenen Knoten mit System-/Softwarefehler.
  • Auswirkung: Der Datenverkehr wird auf den anderen Knoten übertragen, wenn er fehlerfrei ist, wie in Abbildung 2 dargestellt
    Abbildung 2: Softwarefehler bei Multinode-Hochverfügbarkeit Software Failure in Multinode High Availability
  • Wiederherstellung: Wird automatisch und ordnungsgemäß nach dem Ausfall wiederhergestellt, sobald das Problem behoben ist. Der Backup-Knoten, der die aktive Rolle übernommen hat, bleibt weiterhin aktiv. Der ehemals aktive Knoten bleibt als Backup-Knoten erhalten.
  • Ergebnisse: Überprüfen Sie den Status mit dem Befehl show chassis high-availability information detail .

Netzwerk-/Verbindungsfehler

Ausfall physischer Schnittstellen (Link)

  • Ursache: Ein Fehler bei Schnittstellen kann auf Ausfälle von Netzwerkgeräten, Störungen mit physischen Kabeln oder inkonsistente Konfigurationen zurückzuführen sein.
  • Erkennung– bei Hochverfügbarkeit mit mehreren Knoten
    • Auf das betroffene Gerät/den betroffenen Knoten kann nicht zugegriffen werden.
    • Der SRG1-Status ändert sich in INELIGIBLE auf dem betroffenen Knoten mit Netzwerk- oder Verbindungsfehler (wenn der Schnittstellenmonitor konfiguriert ist). Pfadverbindungen können auch mit BFD oder IP-Überwachung erkannt werden und ein Ereignis basierend auf einer konfigurierten Aktion auslösen.
  • Auswirkung: Eine Änderung des Verbindungsstatus der Schnittstellen löst ein Failover aus. Der Sicherungsknoten übernimmt die aktive Rolle, und Dienste, die auf dem ausgefallenen Knoten ausgeführt wurden, werden zu einem anderen Knoten migriert, wie in Abbildung 3 dargestellt.
    Abbildung 3: Schnittstellenfehler Interface Failure
  • Konfiguration: Verwenden Sie die folgende Konfigurationsanweisung, um die BFD- und Schnittstellenüberwachung zu konfigurieren:

    Alle Verbindungen, die für den Datenverkehrsfluss kritisch sind, sollten überwacht werden.

    Checkout-Beispiel: Konfigurieren von Hochverfügbarkeit mit mehreren Knoten in einem Layer 3-Netzwerk, um vollständige Konfigurationsdetails zu erhalten.

  • Wiederherstellung: Wird wiederhergestellt, wenn Sie die fehlerhafte Schnittstelle reparieren/ersetzen. Nachdem der Netzwerk-/Verbindungsfehler behoben ist, wechselt SRG1 vom Status INELIGIBLE in den Status BACKUP. Der neue-aktive Knoten meldet weiterhin bessere Metriken an seinen vorgeschalteten Router und verarbeitet den Datenverkehr.
  • Ergebnisse: Überprüfen Sie den Status mit den folgenden Befehlen:
  • Informationen zum Konfigurieren von Schnittstellen finden Sie unter Konfigurieren von Hochverfügbarkeit mit mehreren Knoten in einem Layer 3-Netzwerk, Konfigurieren von Hochverfügbarkeit mit mehreren Knoten in einer Hybridbereitstellung, Konfigurieren von Hochverfügbarkeit mit mehreren Knoten in einer Standard-Gateway-Bereitstellung, Fehlerbehebung bei Schnittstellen.

ICL-Ausfall (Interchassis Link)

  • Ursache: Ein Fehler in ICL kann auf Netzwerkausfälle oder inkonsistente Konfigurationen zurückzuführen sein.
  • Erkennung— Bei Multinode-Hochverfügbarkeit können Knoten einander nicht erreichen und sie initiieren eine Sonde zur Aktivitätsbestimmung (ICMP-Sonde).
  • Auswirkung: In einem System mit hoher Verfügbarkeit mit mehreren Knoten verbindet ICL aktive und Backup-Knoten. Wenn die ICL ausfällt, bemerken beide Geräte diese Änderung und starten die Aktivitätssonde (ICMP-Sonde). Der Aktivitätstest wird durchgeführt, um den Knoten zu bestimmen, der für jedes SRG1+ eine aktive Rolle übernehmen kann. Basierend auf dem Testergebnis wechselt einer der Knoten in den aktiven Zustand.

    Wie in Abbildung 4 dargestellt, sinkt die ICL zwischen SRX-1 und SRX-2. Beide Geräte können sich nicht gegenseitig erreichen und beginnen, Aktivitätssonden an den vorgeschalteten Router zu senden. Da sich der SRX-1 in der Routerkonfiguration auf einem höheren bevorzugten Pfad befindet, übernimmt er eine aktive Rolle und verarbeitet weiterhin Datenverkehr und kündigt einen höheren Präferenzpfad an. Der andere übernimmt die Backup-Rolle.

    Abbildung 4: ICL-Fehler in Multinode-Hochverfügbarkeit ICL Failure in Multinode High Availability
  • Konfiguration: Verwenden Sie die folgende Konfigurationsanweisung, um die Aktivitätsprüfung zu konfigurieren:

    Ausführliche Informationen zur Konfiguration finden Sie unter Konfigurieren von Hochverfügbarkeit mit mehreren Knoten in einem Layer 3-Netzwerk .

  • Ergebnisse: Überprüfen Sie den Status mit den folgenden Befehlen:
  • Wiederherstellung: Sobald einer der Knoten die aktive Rolle übernimmt, startet die Hochverfügbarkeit mit mehreren Knoten den Prozess der kalten Synchronisierung neu und synchronisiert die Dienste der Steuerungsebene (IPSec-VPN) neu. SRG-Statusinformationen werden zwischen den Knoten erneut ausgetauscht.

Knoten verbleibt im isolierten Zustand

  • Ursache: In einer Hochverfügbarkeitseinrichtung mit mehreren Knoten bleibt der Knoten nach einem Neustart im isolierten Zustand, und die zugehörigen Schnittstellen bleiben weiterhin inaktiv, wenn:
    • Inter Chassis Link (ICL) hat nach dem Hochfahren keine Verbindung zum anderen Knoten, bis die kalte Synchronisierung abgeschlossen ist

      und

    • Die shutdown-on-failure Option wird auf SRG0 konfiguriert

      Anmerkung:

      Die oben genannte Ursache kann auch auftreten, wenn das andere Gerät außer Betrieb ist.

  • Erkennung: Der SRG0-Status wird wie ISOLATED in der Befehlsausgabe angezeigt.
  • Wiederherstellung: Der Knoten wird automatisch wiederhergestellt, wenn der andere Knoten online geht und die ICL Systeminformationen austauschen kann oder wenn Sie die shutdown-on-failure Anweisung entfernen und die Konfiguration bestätigen.

    Verwenden Sie die , delete chassis high-availability services-redundancy-group 0 shutdown-on-failure um die Anweisung zu entfernen.

    Wenn die obige Lösung für Ihre Umgebung nicht geeignet ist, können Sie die install-on-failure-route Option verwenden. Bei dieser Option verwendet das Multinode-Hochverfügbarkeits-Setup eine definierte Signalroute für eine elegantere Behandlung der oben genannten Situation mithilfe von Routing-Richtlinienoptionen, die dem in SRG1+ verfügbaren Ansatz der aktiven Signalroute und des Backup-Signal-Routing-Ansatzes ähnelt.

Flexible Pfadüberwachung

Ab Junos OS Version 23.4R1 haben wir neue Verbesserungen für die folgenden vorhandenen Pfadüberwachungsfunktionen hinzugefügt:

  • IP-Überwachung
  • BFD-Überwachung
  • Schnittstellenüberwachung

Die Verbesserungen sorgen für eine genauere Steuerung der Pfadüberwachungsfunktion durch:

  • Erweiterung des Monitorings für SRG0 zusätzlich zu SRG1+
  • Gruppierung von Überwachungsfunktionen
  • Unterstützen Sie die Überwachung basierend auf der Richtung, die einem SRG-Pfad (Service Redundancy Group) zugeordnet ist
  • Hinzufügen von Gewichtungen, die mit den einzelnen Überwachungsfunktionen verbunden sind

Durch die Gruppierung verwandter Funktionen kann das System sie als Einheit verarbeiten, was zu einer effizienteren Berechnung und Ressourcennutzung führen kann.

SRG-Monitoring-Objekte

Lassen Sie uns das Konzept der Überwachung von Objekten anhand der folgenden Abbildung verstehen.

Abbildung 5: SRG-Monitoring-Objekte SRG Monitoring Objects

Sie können die Überwachungsoptionen pro Dienstredundanzgruppe konfigurieren. Das heißt, wenn bestimmte Elemente in der SRG ausfallen, kann diese SRG ein Failover auf den anderen Knoten ausführen. Jedes SRG enthält ein oder mehrere Überwachungsobjekte.

Die Überwachungsfunktionen, die in Überwachungsobjekten verfügbar sind, sind: BFD-Live, Schnittstellenüberwachung und IP-Überwachung. Jedes dieser Features verfügt über einen zugeordneten Schwellenwert und Gewichtungsattribute.

Wenn das jeweilige Objekt innerhalb eines Monitor-Objekts aufgrund der IP-/Schnittstellen-/BFD-Überwachung kein Failover auslöst, betrachtet das System das Ereignis als Überwachungsfehler. Die Software addiert die Zählung basierend auf dem Gewicht des fehlgeschlagenen Objekts.

Wenn die Anzahl den Schwellenwert von IP/Schnittstelle/BFD überschreitet, addiert das System die Anzahl zum Schwellenwert des übergeordneten Überwachungsobjekts.

Wenn die Summe der Schwellwerte aller an das SRG gebundenen Monitoring-Objekte gleich oder größer als der auf dem SRG konfigurierte Schwellenwert ist, löst das System einen Monitorfehler für dieses SRG aus. SRG führt ein Failover auf den anderen Knoten durch.

Konfiguration der Pfadüberwachung

Betrachten wir das folgende Beispiel für die in Abbildung 6 dargestellte Topologie. In diesem Setup konfigurieren wir Pfadüberwachungsoptionen für SRG1 auf dem Gerät auf Knoten 2.

Abbildung 6: Konfigurationsbeispiel Path Monitoring Configuration Sample für die Pfadüberwachung

Gehen Sie in diesem Beispiel wie folgt vor, um Optionen für die Pfadüberwachung zu konfigurieren:

  • Verwenden Sie eine aggregierte Ethernet-Schnittstelle (ae) für die Verbindung zwischen den Chassis (ICL) und verwenden Sie xe-1/0/x-Schnittstellen für die Verbindung mit benachbarten Routern.
  • Erstellen Sie zwei Monitor-Objekte "Netzwerk-A" und "Netzwerk-B". Sowohl die Netzwerk-A- als auch die Netzwerk-B-Monitorobjekte umfassen alle IP-Adressen und Schnittstellen, die zwischen dem Gerät der SRX-Serie und benachbarten Routern konfiguriert sind.
  • Konfigurieren Sie BFD so, dass die benachbarten Routen überwacht werden.
  • Konfigurieren Sie die IP-Überwachung, um die Routen zu überwachen, die nicht direkt mit SRG1 verbunden sind.
  • Konfigurieren Sie die Schnittstellenüberwachung für direkt verbundene Verbindungen oder Next-Hops.

In der folgenden Tabelle sind Beispielgewichtungen und Schwellenwertzuweisungen aufgeführt.

Tabelle 2: Gewichte und Schwellwerte für Monitor-Objekte (Beispiel)

Überwachen von Objekten

BFD

IP

Schnittstelle

Monitor-Objekt-Schwellenwert

SRG-Schwelle

 

Schwelle

Gewicht

Schwelle

Gewicht

Schwelle

Gewicht

Netzwerk-A

100

50

100

50 (10.10.10.1, 10.20.20.1, 10.30.30.1)

100

25 (xe-1/0/1 und xe-1/0/2)

50 (AE0 und AE1)

100

100

Netzwerk-B

100

50

100

50 (10.11.11.1, 10.12.12.1, 10.13.13.1)

100

25 (xe-1/0/3 und xe-1/0/4)

50 (AE2 und AE3)

200

Anmerkung:
  • Sie können bis zu 10 Überwachungsobjekte pro SRG konfigurieren.
  • Sie können die SRG-Überwachung wie in Junos OS 23.4 (mit SRG-Schwellenwert und Überwachungsobjekten) oder Überwachungsoptionen so konfigurieren, wie sie vor Junos OS Version 23.4R1 unterstützt wurden. Die Kombination beider Konfigurationsstile wird nicht unterstützt.
  • Die Konfiguration von monitor-objects ist die gleiche wie bei SRG 0 und SRG1+.

Konfigurationsbeispiele:

Im folgenden Konfigurationsausschnitt enthält die Dienstredundanzgruppe (SRGx) zwei Monitorobjekte: network-A und network-B. Jedes dieser Überwachungsobjekte verfügt über IP-Überwachung, Schnittstellenüberwachung und BFD-Erkennung, die mit entsprechenden Gewichtungen und Schwellenwerten konfiguriert sind.

  • Legen Sie den SRG-Schwellenwert fest.
  • Konfigurieren Sie monitor-object network-A.
    • Legen Sie den Schwellenwert für das Monitorobjekt fest.
    • Konfigurieren Sie die BFD-Überwachungsoptionen.

    • Konfigurieren Sie Gewichtungs- und Schwellenwerte für die IP-Überwachung.

    • Konfigurieren Sie Gewichtungs- und Schwellenwerte für die Schnittstellenüberwachung.
  • Konfigurieren Sie monitor-object network-B.

    • Legen Sie den Schwellenwert für das Monitorobjekt fest.

    • Konfigurieren Sie die BFD-Überwachung im monitor-Objekt.

    • Konfigurieren Sie Gewichtungs- und Schwellenwerte für die IP-Überwachung.

    • Konfigurieren Sie Gewichtungs- und Schwellenwerte für die Schnittstellenüberwachung.

Nehmen wir den Fall von network-B monitor-object in der Stichprobe.

Das System verfügt über einen Schwellwert von 100 für die Schnittstellenüberwachung und zugewiesene Gewichte für die Stabschnittstellen (50, 50, 25 und 25). Fällt eine Schnittstelle der Gewichtung 50 aus, so wird der Gewichtungswert der Schnittstelle (50) zur Zählung addiert und mit dem Schwellwert der Schnittstellenüberwachung verglichen. Das heißt, die Anzahl ist 50 und der Schnittstellenschwellenwert ist 100. Die Anzahl liegt immer noch unter dem Schwellenwert für die Schnittstelle.

Fällt eine andere Schnittstelle mit der Gewichtung 50 aus, wird der Zähler um 50 erhöht und mit dem Schwellwert der Schnittstellenüberwachung verglichen. Die Anzahl entspricht nun dem Schnittstellenschwellenwert 100. Da die Anzahl dem Schwellenwert entspricht, addiert das System diesen Wert (100) zur Anzahl von monitor-object (network-B). Der Schwellenwert von monitor-object network-B ist 200. Die Anzahl (100) ist immer noch kleiner als der Schwellenwert von object-monitor.

Ähnlich verhält es sich, wenn IP-Monitor oder BFD-Monitor ebenfalls ihre jeweiligen Schwellenwerte erreichen und die Anzahl des Objekt-Monitors erhöhen, wird die Anzahl erhöht und mit dem Schwellenwert des Objekt-Monitors verglichen. Sobald die Anzahl den Schwellenwert von object-monitor unterdrückt, addiert das System die Anzahl zur Anzahl der Service-Redundancy-Group (SRG-1). Wenn die Summe der Anzahl der Objektmonitore für Netzwerk-A und Netzwerk-B den Schwellenwert von SRG-1 überschreitet, löst das System ein Failover auf einen anderen Knoten aus.

Konfiguration der Monitoring-Objekte prüfen

Verwenden Sie die show chassis high-availability services-redundancy-group 1 Befehle oder show chassis high-availability services-redundancy-group <id> monitor-object <name> .

Das folgende Beispiel zeigt die Ausgabe von show chassis high-availability services-redundancy-group 1 command.

In der Befehlsausgabe sehen Sie den Status sowohl von Überwachungsobjekten Network-B als Network-Aauch von . Sie können auch feststellen, dass das Fehlerobjekt in der Ausgabe zusammen mit seinen Schwellenwerten und seiner Gewichtung detailliert beschrieben wird.