Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Überwachung von Objekten auf globaler Ebene in einem Chassis-Cluster

Verwenden Sie Funktionen entdecken, um die Plattform- und Releaseunterstützung für bestimmte Funktionen zu bestätigen.

Im Abschnitt Plattformspezifisches Verhalten von Überwachungsobjekten finden Sie Hinweise zu Ihrer Plattform.

Es gibt verschiedene Arten von Objekten, die bei der Arbeit mit Geräten überwacht werden müssen, die als Chassiscluster konfiguriert sind, einschließlich Objekten auf globaler Ebene und Objekten, die für Redundanzgruppen spezifisch sind. In diesem Abschnitt wird die Überwachung von Objekten auf globaler Ebene beschrieben.

Grundlegendes zur SPU-Überwachung

Die SPU-Überwachung verfolgt den Zustand der SPUs und des zentralen Punktes (CP). Der Chassis-Manager jeder SPC überwacht die SPUs und den zentralen Punkt und behält auch den Takt mit der Routing-Engine im Chassis bei. In diesem hierarchischen Überwachungssystem ist das Chassisd das Zentrum für die Erkennung von Hardwarefehlern. Die SPU-Überwachung ist standardmäßig aktiviert.

Ein anhaltender Ausfall der SPU und des zentralen Punktes auf einem Knoten wird als katastrophaler Ausfall der Packet Forwarding Engine (PFE) gewertet. In diesem Fall wird die PFE des Knotens im Cluster deaktiviert, indem die Prioritäten der Redundanzgruppen x auf 0 reduziert werden.

  • Ein Ausfall an einem zentralen Punkt löst ein Failover auf den sekundären Knoten aus. Die PFE des ausgefallenen Knotens, die alle SPCs und alle E/A-Karten (IOCs) umfasst, wird automatisch neu gestartet. Wenn auch der sekundäre zentrale Punkt ausgefallen ist, kann der Cluster nicht hochgefahren werden, da kein primäres Gerät vorhanden ist. Nur für die Data Plane (Redundanzgruppe x) wird ein Failover ausgeführt.

  • Eine einzelne, fehlerhafte SPU verursacht ein Failover der Redundanzgruppe x auf den sekundären Knoten. Alle IOCs und SPCs auf dem ausgefallenen Knoten werden neu gestartet, und für die Redundanzgruppe x wird ein Failover auf den sekundären Knoten ausgeführt. Das Failover auf den sekundären Knoten erfolgt automatisch, ohne dass ein Eingreifen des Benutzers erforderlich ist. Wenn die fehlerhafte Komponente des ausgefallenen (ehemaligen) primären Knotens wiederhergestellt wird, wird das Failback durch die Prefert-Konfiguration für die Redundanzgruppe x bestimmt. Das Intervall für die Erkennung toter SPUs beträgt 30 Sekunden.

Dieses Ereignis löst einen Alarm aus, der darauf hinweist, dass eine neue vor Ort austauschbare Komponente benötigt wird.

Understanding flow Monitoring (Flowd-Überwachung)

Bei der Überwachung des Datenflusses wird der Zustand des ablauffähigen Prozesses nachverfolgt. Die Überwachung des Datenstroms ist standardmäßig aktiviert.

Ein anhaltender Fehler bei der Datenverarbeitung auf einem Knoten wird als katastrophaler Ausfall der Packet Forwarding Engine (PFE) gewertet. In diesem Fall wird die PFE des Knotens im Cluster deaktiviert, indem die Prioritäten der Redundanzgruppen x auf 0 reduziert werden.

Ein fehlgeschlagener fließender Prozess führt zu einem Failover der Redundanzgruppe x auf den sekundären Knoten. Das Failover auf den sekundären Knoten erfolgt automatisch, ohne dass ein Eingreifen des Benutzers erforderlich ist. Wenn die fehlerhafte Komponente des ausgefallenen (ehemaligen) primären Knotens wiederhergestellt wird, wird das Failback durch die Prefert-Konfiguration für die Redundanzgruppe x bestimmt.

Bei SPC- und Datenstromüberwachungsfehlern auf einem lokalen Knoten führt die Data-Plane-Redundanz-Gruppe RG1+ ein Failover auf den anderen Knoten durch, der sich in einem guten Zustand befindet. Die Steuerungsebene RG0 führt jedoch kein Failover durch und bleibt primär auf demselben Knoten wie vor dem Ausfall.

Grundlegendes zur cold-sync-Überwachung

Der Prozess der Synchronisierung der Data Plane Runtime Objects (RTOs) beim Start der SPUs oder flowd wird als kalte Synchronisierung bezeichnet. Wenn alle RTOs synchronisiert sind, ist der Cold-Sync-Prozess abgeschlossen, und die SPU oder der Datenfluss auf dem Knoten kann bei Bedarf für den primären Knoten übernommen werden. Der Prozess der Überwachung des Cold-Sync-Status aller SPUs oder des Datenflusses auf einem Knoten wird als Cold-Sync-Überwachung bezeichnet. Beachten Sie, dass bei aktivierter Trennfunktion die Überwachung der kalten Synchronisierung verhindert, dass der Knoten die primäre Rolle übernimmt, bis der Cold-Sync-Prozess für die SPUs abgeschlossen oder auf dem Knoten ausgeführt wurde. Die Cold-Sync-Überwachung ist standardmäßig aktiviert.

Wenn der Knoten neu gestartet wird oder wenn die SPUs oder der Datenfluss nach einem Ausfall wieder hochgefahren werden, ist die Priorität für alle Redundanzgruppen 1+ 0. Wenn eine SPU oder flowd auftaucht, versucht sie, den Cold-Sync-Prozess mit ihrer gespiegelten SPU oder flowd auf dem anderen Knoten zu starten.

Wenn dies der einzige Knoten im Cluster ist, bleiben die Prioritäten für alle Redundanzgruppen 1+ auf 0, bis ein neuer Knoten dem Cluster beitritt. Obwohl die Priorität auf 0 liegt, kann das Gerät weiterhin Datenverkehr über seine Schnittstellen empfangen und senden. Eine Priorität von 0 bedeutet, dass im Falle eines Fehlers kein Failover ausgeführt werden kann. Wenn ein neuer Knoten dem Cluster beitritt, starten alle SPUs oder flowd, sobald sie auftauchen, den Cold-Sync-Prozess mit den gespiegelten SPUs oder flowd des vorhandenen Knotens.

Wenn die SPU oder der Flow eines Knotens, der bereits aktiv ist, die Cold-Sync-Anforderung von der SPU oder den Flowd des Peer-Knotens erkennt, sendet sie eine Meldung an das System, die angibt, dass der Cold-Sync-Prozess abgeschlossen ist. Die SPUs oder der Flow des neu beigetretenen Knotens senden eine ähnliche Nachricht. Sie posten diese Nachricht jedoch erst, nachdem alle RTOs gelernt wurden und die Kaltakquise abgeschlossen ist. Nach Erhalt von Abschlussmeldungen von allen SPUs oder flowd wird die Priorität für die Redundanzgruppen 1+ auf jedem Knoten auf die konfigurierte Priorität verschoben, wenn keine anderen Ausfälle von überwachten Komponenten, z. B. Schnittstellen, auftreten. Durch diese Aktion wird sichergestellt, dass der vorhandene primäre Knoten für Redundanzgruppen 1+ immer zuerst auf die konfigurierte Priorität verschoben wird. Der Knoten, der dem Cluster beitritt, wechselt später erst dann zu seinen konfigurierten Prioritäten, wenn alle seine SPUs oder flowd ihren Cold-Sync-Prozess abgeschlossen haben. Diese Aktion wiederum garantiert, dass der neu hinzugefügte Knoten mit allen RTOs bereit ist, bevor er die primäre Rolle übernimmt.

Grundlegendes zur Cold-Sync-Überwachung bei SPU-Austausch oder -Erweiterung

Wenn Ihre SRX5600- oder SRX5800-Firewall Teil eines Gehäuse-Clusters ist und Sie eine Services Processing Card (SPC) durch eine SPC2 oder SPC3 auf dem Gerät ersetzen, müssen Sie ein Failover aller Redundanzgruppen auf einen Knoten durchführen.

In diesem Szenario finden die folgenden Ereignisse statt:

  • Wenn die SPC2 auf einem Knoten installiert ist (z. B. auf Knoten 1, dem sekundären Knoten), wird Knoten 1 heruntergefahren, damit die SPC2 installiert werden kann.

  • Sobald Knoten 1 hochgefahren ist und dem Cluster wieder beitritt, ist die Anzahl der SPUs auf Knoten 1 höher als die Anzahl der SPUs auf Knoten 0, dem primären Knoten. Jetzt hat ein Knoten (Knoten 0) noch eine alte SPC, während der andere Knoten die neue SPC2 hat. SPC2s haben vier SPUs pro Karte, und die älteren SPCs haben zwei SPUs pro Karte.

    Der Cold-Sync-Prozess basiert auf der gesamten SPU-Nummer von Knoten 0. Sobald die SPUs in Knoten 1, die den SPUs von Knoten 0 entsprechen, die kalte Synchronisierung abgeschlossen haben, erklärt Knoten 1 die kalte Synchronisierung für abgeschlossen. Da die zusätzlichen SPUs in Knoten 1 nicht über die entsprechenden SPUs für Knoten 0 verfügen, muss nichts synchronisiert werden, und das Failover von Knoten 0 zu Knoten 1 verursacht keine Probleme.

    Die SPU-Überwachungsfunktion überwacht alle SPUs und meldet, ob SPU-Fehler vorliegen.

    Nehmen wir beispielsweise an, dass beide Knoten ursprünglich über 2 vorhandene SPCs verfügen und Sie beide SPCs auf Knoten 1 durch SPC2 ersetzt haben. Jetzt haben wir 4 SPUs in Knoten 0 und 8 SPUs in Knoten 1. Die SPU-Überwachungsfunktion überwacht die 4 SPUs auf Knoten 0 und 8 SPUs auf Knoten 1. Wenn eine dieser 8 SPUs in Knoten 1 ausgefallen ist, meldet die SPU-Überwachung dennoch an den Juniper Services Redundancy Protocol (jsrpd)-Prozess, dass ein SPU-Fehler vorliegt. Der jsrpd-Prozess steuert das Chassis-Clustering.

  • Sobald Knoten 1 für das Failover bereit ist, können Sie das Failover aller Redundanzgruppen manuell auf Knoten 1 initiieren. Knoten 0 wird heruntergefahren, um seine SPC durch die SPC2 zu ersetzen. Nach dem Austausch haben Knoten 0 und Knoten 1 genau das gleiche Hardware-Setup.

Sobald Knoten 0 hochgefahren ist und dem Cluster wieder beitritt, funktioniert das System wie ein normaler Chassis-Cluster.

Wenn der Cold-Sync-Prozess auf der Firewall der SRX-Serie im Gehäuse-Cluster noch ausgeführt wird und die Steuerverbindung ausgefallen ist, ist eine Verzögerung (von 30 Sekunden) zu erwarten, bevor der Knoten vom sekundären in den primären Zustand übergeht.

Plattformspezifisches Verhalten von Überwachungsobjekten

Verwenden Sie Funktionen entdecken, um die Plattform- und Releaseunterstützung für bestimmte Funktionen zu bestätigen.

Verwenden Sie die folgende Tabelle, um das plattformspezifische Verhalten auf Ihrer Plattform zu überprüfen.

Bahnsteig

Unterschied

SRX-Serie

  • SRX5000-Firewalls der Serie, die die SPU-Überwachung auf SPCs unterstützen, überwacht das Routing-Engine den Zustand des Chassis-Managers. Der Chassis-Manager sendet jede Sekunde einen Heartbeat an die Routing-Engine. Die Routing-Engine startet die SPC neu, wenn ein verlorener Takt erkannt wird. Nach mehreren fehlgeschlagenen Wiederherstellungen schaltet die Routing-Engine die SPC ab, um das gesamte System zu schützen.

  • Für Firewalls der SRX5000-Serie gelten die folgenden Einschränkungen für das Einfügen einer SPC:

    • Das Gehäuse-Cluster muss sich vor und während des SPC-Einfügevorgangs im Aktiv/Passiv-Modus befinden.

    • Eine unterschiedliche Anzahl von SPCs kann nicht in zwei verschiedene Knoten eingefügt werden.

    • Eine neue SPC muss in einen Steckplatz eingesetzt werden, der höher ist als der zentrale Punktschlitz.

      Der vorhandene Kombinationsmittelpunkt kann nach dem Einfügen der neuen SPC nicht in einen vollständigen Mittelpunkt geändert werden.

    • Während eines SPC-Einfügevorgangs können die IKE- und IPsec-Konfigurationen nicht geändert werden.

      Eine SPC ist nicht im laufenden Betrieb einführbar. Vor dem Einsetzen einer SPC muss das Gerät offline genommen werden. Nach dem Einsetzen einer SPC muss das Gerät neu gestartet werden.

    • Sie können die SPU und die IKE-Instanz nicht angeben, um einen Tunnel zu verankern.

    • Nachdem eine neue SPC eingefügt wurde, können die vorhandenen Tunnel die Rechenleistung der neuen SPC nicht nutzen und auf die neue SPC verteilen.

  • Firewalls der SRX5000-Serie mit einem oder mehreren SPUs werden auf einer Services Processing Card (SPC) ausgeführt. Diese Firewalls verwenden die SPU für alle Flow-basierten Services. Andere Firewalls der SRX-Serie setzen auf den datenstrombasierten Weiterleitungsprozess flowd, um Pakete weiterzuleiten.