Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Disaster Recovery – Überblick

Ein Junos Space-Cluster ermöglicht es Ihnen, hohe Verfügbarkeit und Skalierbarkeit in Ihrer Netzwerkmanagementlösung aufrechtzuerhalten. Da sich jedoch alle Knoten in einem Cluster innerhalb desselben Subnetzes befinden müssen, werden sie in der Regel im selben Datencenter oder auf demselben Campus bereitgestellt. Sie können jedoch problemlos einen Cluster nach einer Katastrophe an einem Standort wiederherstellen, indem Sie die ursprüngliche Junos Space-Installation auf einem Cluster in einem anderen Cluster an einem geografisch unterschiedlichen Standort spiegeln. Wenn also der Hauptstandort von Junos Space aufgrund einer Katastrophe wie einem Erdbeben ausfällt, kann der andere Standort übernehmen. Daher besteht die physische Installation der Disaster Recovery-Einrichtung in der Regel aus zwei geografisch voneinander getrennten Clustern: dem aktiven oder Hauptstandort (d. h. dem lokalen Standort) und dem Standby- oder Backup-Standort (d. h. dem Remote-Standort).

Wenn die grundlegenden Konnektivitätsanforderungen und Voraussetzungen erfüllt sind (siehe Voraussetzungen für die Konfiguration von Notfallwiederherstellung und Konnektivitätsanforderungen zur Konfiguration von Notfallwiederherstellung ), werden Die Daten aus dem Cluster am aktiven Standort nahezu in Echtzeit auf den Cluster am Standby-Standort repliziert.

Die Daten in den MySQL- und PgSQL-Datenbanken werden asynchron vom aktiven Standort zum Standby-Standort über eine SSL-Verbindung repliziert. MySQL- und PgSQL-Daten zwischen den Disaster Recovery-Standorten werden mit selbstsignierten SSL-Zertifikaten verschlüsselt, die bei der Initialisierter Notfallwiederherstellung generiert werden. CA-Stammzertifikate, CRLs, Benutzerzertifikate, Skripte, Geräteimages, archivierte Überwachungsprotokolle und Informationen über geplante Aufträge werden während der Echtzeitdatenreplikation auf den Standby-Standort repliziert. Die Konfigurations- und Round-Robin-Datenbankdateien (RRD) werden regelmäßig mit Secure Copy Protocol (SCP) vom aktiven Standort zum Standby-Standort synchronisiert.

Der Disaster Recovery Watchdog, ein integrierter Junos Space-Mechanismus, überwacht die Integrität der Datenbankreplikation an verschiedenen Standorten. Alle anderen Services (wie JBoss, OpenNMS, Apache usw.) werden auf der Standby-Site erst ausgeführt, wenn der aktive Standort nicht an den Standby-Standort übergeht. Ein Failover zum Standby-Standort wird automatisch eingeleitet, wenn der aktive Standort ausfällt. Ein Geräteschiedsalgorithmus wird verwendet, um zu bestimmen, welcher Standort der aktive Standort sein sollte, um ein Split-Brain-Szenario zu verhindern, bei dem beide Standorte aktiv zu sein versuchen. Informationen zum Geräte-Schiedsalgorithmus finden Sie unter Fehlererkennung durch Verwendung des Geräteschiedsalgorithmus.

In den folgenden Abschnitten werden die Konnektivitätsanforderungen für den Notfallwiederherstellungsprozess, die Mechanismen zur Fehlererkennung und die Befehle zur Notfallwiederherstellung beschrieben:

Disaster Recovery-Lösung

Nachdem Sie den Disaster Recovery-Prozess zwischen einem aktiven Standort und einem Standby-Standort konfiguriert und eingeleitet haben, wird die asynchrone Replikation von MySQL und PgSQL-Datenbank zwischen den Standorten eingeleitet. Konfigurations- und RRD-Dateien werden über SCP in definierten Zeitintervallen auf den Standby-Standort gesichert.

Der Disaster Recovery-Prozess führt keine Echtzeitreplikation der Cassandra-Datenbank zum Standby-Standort durch oder überwacht den Cassandra-Service, der auf den Junos Space-Knoten ausgeführt wird.

Während des normalen Betriebs der Disaster Recovery-Lösung werden die GUI- und API-Benutzer sowie die verwalteten Geräte für alle Netzwerkmanagement-Services mit dem aktiven Standort verbunden. Die Konnektivität zwischen dem Standby-Standort und den verwalteten Geräten ist deaktiviert, solange der aktive Standort funktionsfähig ist. Wenn der aktive Standort aufgrund einer Katastrophe nicht mehr verfügbar ist, wird der Standby-Standort in Betrieb genommen. Zu diesem Zeitpunkt werden alle Services am Standby-Standort gestartet und die Konnektivität zwischen dem Standby-Standort und den verwalteten Geräten hergestellt.

Abbildung 1 zeigt die Disaster Recovery-Lösung.

Abbildung 1: Disaster Recovery-Lösung Disaster Recovery Solution

Der Überwachungsprozess für die Notfallwiederherstellung wird am VIP-Knoten der aktiv- und Standby-Standorte eingeleitet, um den Zustand des Replikationsprozesses zu überwachen und zu erkennen, wenn der Remote-Standort ausfällt. Der Disaster Recovery Watchdog am lokalen Standort prüft, ob Konnektivitätsprobleme zwischen beiden Standorten auftreten (durch Pingen der Knoten am Remote-Standort) und ob die Standorte mit Arbitergeräten verbunden sind (wenn Sie den Geräte-Schiedsalgorithmus verwenden).

Der Disaster Recovery Watchdog an einem Standort führt die folgenden Aufgaben aus, um die Konnektivität mit den Remote- und Arbitergeräten zu bestätigen:

  • Ping der VIP-Adresse des Remote-Standorts in einem regelmäßig konfigurierbaren Intervall. Der Standardwert für das Intervall ist 30 Sekunden.

    Erwarten Sie für jeden Ping eine Antwort innerhalb eines konfigurierbaren Timeout-Intervalls. Der Standardwert für das Timeout-Intervall ist 5 Sekunden.

  • Wenn der lokale Standort innerhalb des Timeout-Intervalls keine Antwort erhält, fordert der Notfallwiederherstellungs-Watchdog den Ping für eine konfigurierbare Anzahl von Malen wieder. Standardmäßig beträgt die Anzahl der Wiederholungen 4.

  • Wenn alle Wiederholungen fehlschlagen, kommt der Disaster Recovery Watchdog am lokalen Standort zu dem Schluss, dass die VIP-Adresse des Remote-Standorts nicht erreichbar ist.

    Der Disaster Recovery Watchdog kommt jedoch nicht zu dem Schluss, dass der Remote-Standort ausfällt, weil der Remote-Standort aufgrund eines lokalen Switchovers möglicherweise über die VIP-Adresse in einen Standby-Knoten umgestellt wird.

  • Um die Möglichkeit eines VIP-Adressen-Switchovers in Betracht zu ziehen, pingt der Disaster Recovery Watchdog die IP-Adressen der anderen Load-Balancer-Knoten am Remote-Standort an. Wenn der Ping an einen der Knoten eine Antwort erhält, kommt der Disaster Recovery Watchdog zu dem Schluss, dass der Remote-Standort noch eingerichtet ist.

    Wenn der Ping an die Knoten fehlschlägt, kommt der Disaster Recovery Watchdog nicht zu dem Schluss, dass der Remote-Standort ausfällt. Stattdessen berücksichtigt der Notfallwiederherstellungswächter die Möglichkeit von Konnektivitätsproblemen zwischen den Standorten. Beide Standorte versuchen, aktiv zu werden.

  • Um zu verhindern, dass beide Standorte aktiv werden, initiiert der Disaster Recovery Watchdog den Geräteschiedsalgorithmus und bestimmt, ob ein Failover erforderlich ist.

    Ein Failover wird nur eingeleitet, wenn der Prozentsatz der Arbitergeräte, die vom aktiven Standort verwaltet werden, unter den Failover-Schwellenwert fällt. Dann wird der aktive Standort zum Standby-Standort und der Standby-Standort zum aktiven Standort.

    Wenn der Prozentsatz der Arbiter-Geräte über dem Failover-Schwellenwert liegt, bleibt der Standby-Standort standby und der aktive Standort bleibt aktiv. Der Prozentsatz der Arbiter-Geräte, die vom aktiven Standort verwaltet werden, ist konfigurierbar und der Standardwert beträgt 50 %.

Das Failover wird eingeleitet, wenn die folgenden Bedingungen erfüllt sind:

  • Der Standby-Standort kann die VIP-Adresse des aktiven Standorts oder die Knoten-IP-Adressen anderer Load-Balancer-Knoten am aktiven Standort nicht erreichen.

  • Der Prozentsatz der arbiter-Geräte, die vom aktiven Standort verwaltet werden, liegt unter dem Failover-Schwellenwert.

Weitere Informationen zum Geräteschiedsalgorithmus finden Sie unter Fehlererkennung durch Verwendung des Geräteschiedsalgorithmus.

Voraussetzungen für die Konfiguration von Disaster Recovery

Sie müssen sicherstellen, dass Ihre Junos Space-Installation die folgenden Voraussetzungen erfüllt, bevor Sie die Disaster Recovery konfigurieren:

  • Der Junos Space-Cluster am primären oder aktiven Standort (der ein einzelner oder mehrere Knoten sein kann) und der Cluster am Remote- oder Standby-Standort (der ein einzelner oder mehrere Knoten sein kann) müssen genau auf die gleiche Weise eingerichtet werden, mit allen gleichen Anwendungen, Geräteadaptern, Konfigurationen derselben IP-Familie, Und so weiter.

  • Beide Cluster sollten mit SMTP-Serverinformationen aus der Junos Space-Benutzeroberfläche konfiguriert werden. Weitere Informationen finden Sie unter Verwalten von SMTP-Servern. Diese Konfiguration ermöglicht es den Clustern am aktiven Standort und am Standby-Standort, den Administrator per E-Mail zu benachrichtigen, wenn die Replikationen fehlschlagen.

Hinweis:

Die Anzahl(n) der Knoten an aktivem Standort und Standby-Standort sollte gleich sein.

Konnektivitätsanforderungen für die Konfiguration von Disaster Recovery

Sie müssen sicherstellen, dass die Disaster Recovery-Lösung die folgenden Konnektivitätsanforderungen erfüllt, bevor Sie die Disaster Recovery konfigurieren:

  • Layer 3-Konnektivität zwischen den Junos Space-Clustern an den Aktiv- und Standby-Standorten. Das bedeutet:

    • Jeder Knoten in einem Cluster kann die VIP-Adresse des anderen Clusters erfolgreich anpingen

    • Jeder Knoten in einem Cluster kann SCP verwenden, um Dateien zwischen aktiv- und Standby-Standorten zu übertragen.

    • Datenbankreplikation über die beiden Cluster hinweg ist über die TCP-Ports 3306 (MySQL-Datenbankreplikation) und 5432 (Replikation der Nachbildung von Datenbanken) möglich.

    • Die Bandbreite und Latenz der Verbindung zwischen den beiden Clustern sind so, dass die Datenbankreplikation in Echtzeit erfolgreich ist. Obwohl die genaue erforderliche Bandbreite von der übertragenen Datenmenge abhängt, empfehlen wir mindestens eine 100-Mbit/s-Bandbreitenverbindung mit einer Latenz von weniger als 150 Millisekunden.

  • Unabhängige Layer 3-Konnektivität zwischen jedem Cluster und verwalteten Geräten

  • Unabhängige Layer 3-Konnektivität zwischen jedem Cluster und einer GUI oder NBI-Clients

Informationen zum Einrichten des Disaster Recovery-Prozesses finden Sie unter Konfigurieren des Disaster Recovery-Prozesses zwischen einem aktiven und einem Standby-Standort.

Notfallwiederherstellung Watchdog

Der Disaster Recovery Watchdog, auch bekannt als DR-Watchdog, ist ein integrierter Junos Space-Mechanismus zur Überwachung der Integrität der Datenreplikation (MySQL-Datenbank, PgSQL-Datenbank, Konfigurationsdateien und RRD-Dateien) an verschiedenen Standorten. Der Disaster Recovery Watchdog überwacht auch den gesamten Zustand der Disaster Recovery-Einrichtung, initiiert ein Failover vom aktiven zum Standby-Standort, wenn der aktive Standort ausfällt, und ermöglicht es dem Standby-Standort, die Netzwerkmanagement-Services mit minimaler Unterbrechung wieder aufzunehmen. Eine Instanz des Disaster Recovery Watchdogs wird am VIP-Knoten an beiden Standorten initiiert, wenn Sie den Disaster Recovery-Prozess starten.

Der Disaster Recovery Watchdog bietet die folgenden Services:

Herzschlag

Der Herzschlagdienst zwischen den aktiven und Standby-Standorten verwendet Ping, um die Konnektivität zwischen den Standorten zu überprüfen. Beide Standorte senden sich Herzschlagnachrichten aneinander. Der Herzschlagdienst führt die folgenden Aufgaben aus:

  • Erkennen Sie einen Fehler am Remote-Standort, indem Sie den Remote-Standort in regelmäßigen Abständen anpingen.

  • Wenn der Remote-Standort nicht antwortet, sollten Sie die Möglichkeit eines vorübergehenden Problems aufgrund eines lokalen Failovers am Remote-Standort ausschließen.

  • Aktivieren oder deaktivieren Sie das automatische Failover in Abhängigkeit von den Konfigurationseinstellungen für die Notfallwiederherstellung.

  • Vermeiden Sie Split-Brain-Szenarien, indem Sie den Geräteschiedsalgorithmus (Standard) oder die im benutzerdefinierten Skript konfigurierte Logik ausführen.

  • Überprüfen Sie die Disaster Recovery-Konfiguration nach dem Neustart eines Standorts.

mysqlMonitor

Der mysqlMonitor-Dienst führt die folgenden Aufgaben aus:

  • Überwachen Sie den Zustand der MySQL-Datenbankreplikation innerhalb des Standorts und zwischen den aktiven und Standby-Standorten.

  • Beheben Sie MySQL-Datenbankreplikationsfehler.

  • Benachrichtigen Sie den Administrator per E-Mail, wenn ein Fehler bei der MySQL-Datenbankreplikation nicht automatisch behoben werden kann.

pgsqlMonitor

Der pgsqlMonitor-Dienst führt die folgenden Aufgaben aus:

  • Überwachen Sie den Zustand der PgSQL-Datenbankreplikation innerhalb des Standorts und zwischen den aktiven und Standby-Standorten.

  • Beheben Sie PgSQL-Datenbankreplikationsfehler.

  • Benachrichtigen Sie den Administrator per E-Mail, wenn ein Fehler bei der PgSQL-Datenbankreplikation nicht automatisch behoben werden kann.

Filemonitor

Der FileMonitor-Dienst führt die folgenden Aufgaben aus:

  • Überwachen Sie den Zustand der Konfigurations- und RRD-Dateien, die innerhalb der Standorte und zwischen den aktiven und Standby-Standorten repliziert werden.

  • Beheben Sie Fehler, die bei der Replikation von Konfigurationsdateien und RRD-Dateien gefunden wurden.

  • Benachrichtigen Sie den Administrator per E-Mail, wenn ein Replikationsfehler nicht automatisch behoben werden kann. Sie können auch die Replikationsfehler in der Ausgabe des Cron-Jobs anzeigen.

ArbiterMonitor

Der ArbiterMonitor-Service überprüft in regelmäßigen Abständen, ob der lokale Standort alle Arbitergeräte anpingen kann. Wenn der Prozentsatz der erreichbaren Arbitergeräte unter einen konfigurierten Warnschwellenwert (standardmäßig 70 % ) fällt, wird eine E-Mail-Benachrichtigung an den Administrator gesendet.

configMonitor

Der configMonitor-Dienst führt die folgenden Aufgaben aus:

  • Überwachen Sie die Konfigurationsdateien für die Notfallwiederherstellung auf allen Knoten an beiden Standorten.

  • Übertragen Sie die Konfigurationsdateien über Knoten innerhalb eines Standorts, wenn die Dateien nicht synchronisiert sind.

ServiceMonitor

Der ServiceMonitor führt die folgenden Aufgaben aus:

  • Überwachen Sie den Status ausgewählter Services (wie jboss, jboss-dc, httpd und dr-watchdog) innerhalb einer bestimmten Website.

  • Starten oder beenden Sie die ausgewählten Services, wenn sie einen falschen Status anzeigen.

Benachrichtigung

Der Benachrichtigungsservice benachrichtigt den Administrator per E-Mail über Fehlerbedingungen, Warnungen oder Änderungen des Status des Disaster Recovery-Status, die vom Watchdog für die Notfallwiederherstellung erkannt wurden. Benachrichtigungs-E-Mails werden gesendet, wenn:

  • Das automatische Failover ist aufgrund von Konnektivitätsproblemen zwischen einem Standort und Arbitergeräten deaktiviert.

  • Der Prozentsatz der arbiter-Geräte, die erreichbar sind, liegt unter dem Warnschwellenwert.

  • Ein Standort wird standby oder aktiv.

  • Die Standby-Site kann keine Dateien vom aktiven Standort über SCP sichern.

  • Ein Standort kann keine SSH-Verbindung zum Remote-Standort herstellen.

  • Die lokale Site kann den Hostnamen des primären MySQL-Knotens nicht abrufen.

  • Eine Website kann MySQL- und PgSQL-Datenbankreplikationsfehler nicht beheben.

Der Benachrichtigungsservice sendet keine E-Mails, um dieselben Fehler innerhalb eines konfigurierbaren Zeitraums (standardmäßig 3600 Sekunden) zu melden.

Fehlererkennung mithilfe des Geräteschiedsalgorithmus

Ein Geräteschiedsalgorithmus wird verwendet, um Fehler an einem Standort zu erkennen. Eine Liste der hoch erreichbaren Geräte, auf denen Junos OS ausgeführt und von der Junos Space-Plattform verwaltet wird, wird als Arbitergeräte ausgewählt. Wir empfehlen, dass Sie Arbiter-Geräte basierend auf den folgenden Kriterien auswählen:

  • Sie müssen die Arbiter-Geräte über von Junos Space initiierte SSH-Verbindungen von beiden Standorten erreichen können. Wählen Sie keine Geräte aus, die geräteinitiierte Verbindungen zur Junos Space Platform verwenden.

  • Sie müssen in der Lage sein, Arbitergeräte von beiden Disaster Recovery-Standorten anpingen zu können.

  • Sie müssen arbiter-Geräte auswählen, die mit der Junos Space-Plattform verbunden bleiben oder seltener neu gestartet oder heruntergefahren werden, da dies sich auf die Ergebnisse des Geräteschiedsalgorithmus auswirken kann. Wenn Sie vorhersehen, dass bestimmte Arbitergeräte während eines Teils ihres Lebens offline sind, vermeiden Sie die Auswahl dieser Geräte.

  • Sie müssen Arbitergeräte von verschiedenen geografischen Standorten auswählen, um sicherzustellen, dass ein Problem im Verwaltungsnetzwerk an einem Standort nicht alle Arbitergeräte von Ihren Standorten aus unerreichbar macht.

  • Sie können NAT- und Ww Junos OS-Geräte nicht als Arbitergeräte auswählen.

Der Geräteschiedsalgorithmus am aktiven Standort verwendet Ping, um eine Verbindung zu Arbitergeräten vom aktiven Standort aus herzustellen. Der Geräteschiedsalgorithmus am Standby-Standort meldet sich über SSH-Verbindungen bei den Arbitergeräten an, indem er die Anmeldeinformationen aus der Datenbank der Junos Space Platform verwendet. Im Folgenden sind die Workflows des Geräte-Schiedsalgorithmus an den aktiv- und Standby-Standorten.

Am aktiven Standort:

  1. Ping aller ausgewählten Arbitergeräte.

  2. Berechnen Sie den Prozentsatz der Arbitergeräte, die pinget werden können.

  3. Prüfen Sie, ob der Prozentsatz der Arbitergeräte, die pinget werden können, über oder mit dem konfigurierten Wert des Failover-Schwellenwerts identisch ist.

    • Wenn der Prozentsatz der angeschlossenen Arbitergeräte über dem konfigurierten Wert des Failover-Schwellenwerts (failureDetection.threshold.failover-Parameter im Watchdog-Abschnitt der Disaster Recovery API) liegt, wird ein Failover nicht eingeleitet, da der aktive Standort einen Großteil der Arbitergeräte verwaltet.

    • Wenn der Prozentsatz der Arbitergeräte unter dem konfigurierten Wert des Failover-Schwellenwerts liegt, wird ein Failover eingeleitet (wenn das automatische Failover aktiviert ist) und der aktive Standort wird standby. Wenn das automatische Failover deaktiviert ist, bleibt der aktive Standort aktiv.

Am Standby-Standort:

  1. Melden Sie sich über SSH-Verbindungen bei Arbitergeräten an.

  2. Führen Sie einen Befehl auf jedem Arbitergerät aus, um die Liste der SSH-Verbindungen zu einem beliebigen Knoten (verwaltet durch den Knoten) am aktiven Standort abzurufen.

  3. Berechnen Sie den Prozentsatz der Arbiter-Geräte, die von der aktiven Site verwaltet werden.

  4. Berechnen Sie den Prozentsatz der Arbiter-Geräte, die nicht über SSH-Verbindungen erreicht werden können.

    • Wenn der Prozentsatz der arbiter-Geräte, die vom aktiven Standort verwaltet werden, über dem konfigurierten Wert des Failover-Schwellenwerts liegt oder gleicht, ist ein Failover nicht erforderlich, da der aktive Standort immer noch einen Großteil der Arbitergeräte verwaltet.

    • Wenn der Prozentsatz der arbiter-Geräte, die vom aktiven Standort verwaltet werden, unter dem konfigurierten Wert des Failover-Schwellenwerts liegt, kommt der Watchdog für die Notfallwiederherstellung zu dem Schluss, dass ein Failover erforderlich sein könnte.

  5. Da jedoch die Geräte, die vom Standby-Standort aus nicht erreichbar sind, vom aktiven Standort aus verbunden und verwaltet werden können, geht der Standby-Standort davon aus, dass alle Arbitergeräte, die nicht erreicht werden können, vom aktiven Standort verwaltet werden, und berechnet den neuen Prozentsatz der geräte, die vom aktiven Standort verwaltet werden.

    • Wenn der Prozentsatz der von der aktiven Site verwalteten Geräte unter dem Schwellenwert für die Anpassung verwalteter Geräte liegt (failureDetection.threshold.adjustManaged Parameter im Watchdog-Abschnitt der Disaster Recovery API, der Standardwert ist 50 %), bleibt der Standby-Standort standby. Standardmäßig muss der Schwellenwert für die Anpassung verwalteter Geräte unter dem Failover-Schwellenwert liegen.

    • Wenn der neue Prozentsatz, der durch Hinzufügen der vom aktiven Standort verwalteten Geräte und Arbitergeräte, die nicht erreicht werden können, unter dem Failover-Schwellenwert liegt, kommt der Disaster Recovery Watchdog zu dem Schluss, dass ein Failover eingeleitet werden muss.

      Wenn das automatische Failover aktiviert ist, initiiert der Standby-Standort den Prozess der Aktivierung. Wenn das automatische Failover deaktiviert ist, erfolgt kein Failover.

Wenn Sie das automatische Failover deaktiviert haben oder die Funktion aufgrund von Konnektivitätsproblemen deaktiviert wurde, müssen Sie am Standby-Standort ausgeführt jmp-dr manualFailover werden, um die Netzwerkverwaltungsservices vom Standby-Standort aus wieder aufzunehmen.

Fehlererkennung mithilfe der benutzerdefinierten Skripte zur Fehlererkennung

Zusätzlich zur Verwendung des Geräte-Schiedsalgorithmus können Sie benutzerdefinierte Fehlererkennungsskripte (sh, bash, Perl oder Python) erstellen, um zu entscheiden, wann oder ob ein Failover zum Standby-Standort erfolgt. Benutzerdefinierte Fehlerskripte rufen den jmp-dr api v1 config ––include Befehl auf und rufen die Disaster Recovery-Konfiguration und den Status der Disaster Recovery Watchdog-Services ab. Die Disaster Recovery-Konfiguration und der Status der Disaster Recovery Watchdog-Services an einem Standort sind in verschiedenen Abschnitten organisiert. Tabelle 1 listet diese Abschnitte auf.

Verwenden Sie die Option -- <abschnittsname einschließen>, um die Details eines Abschnitts anzuzeigen, oder verwenden Sie die Details des Abschnitts im benutzerdefinierten Skript zur Fehlererkennung.

Tabelle 1: API-Abschnitte

Abschnitt

Beschreibung

Details im Abschnitt

Beispielausgabe

Rolle

Rolle der Notfallwiederherstellung des aktuellen Standorts

Rollen können aktiv, standby oder alleinstehend sein.

Failover

Art des Failovers, das zuletzt passiert ist

Der Wert kann active_to_standby, standby_to_active oder leer sein, wenn ein Failover noch nicht stattgefunden hat.

Kern

Core Disaster Recovery-Konfiguration, die details der Remote-Standorte-Knoten enthält

PeerVip–VIP des Load-Balancers am Remote-Standort

adminPass: Verschlüsselte Administratorpasswörter der Remote-Site. Mehrere Einträge werden durch Kommas getrennt.

scpTimeout– Timeout-Wert, der zur Erkennung von SCP-Übertragungsfehlern zwischen Standorten verwendet wird

peerLoadBalancerNodes– Node-IP-Adressen der Load-Balancer-Knoten am Remote-Standort. Mehrere Einträge werden durch Kommas getrennt.

peerBusinessLogicNodes– Node-IP-Adressen der JBoss-Knoten am Remote-Standort. Mehrere Einträge werden durch Kommas getrennt.

peerDeviceMgtIps– Geräteverwaltungs-IP-Adressen des Remote-Standorts. Mehrere Einträge werden durch Kommas getrennt.

{ 
"core": {
  "peerVip": "10.155.90.210",
  "adminPass": "ABCDE12345",
  "scpTimeout": 120,
  "peerLoadBalancerNodes": "10.155.90.211",
   "peerBusinessLogicNodes": "10.155.90.211",
   "peerDeviceMgtIps": "10.155.90.211"}
}

Mysql

Disaster Recovery-Konfiguration im Zusammenhang mit der MySQL-Datenbank am Remote-Standort

hasDedicatedDb– Ob der Remote-Standort dedizierte Datenbankknoten enthält

peerVip–VIP der MySQL-Knoten am Remote-Standort (entweder normaler Oder dedizierter Datenbankknoten)

peerNodes– Node-IP-Adressen der MySQL-Knoten am Remote-Standort (entweder normaler Oder dedizierter DB-Knoten). Mehrere Einträge werden durch Kommas getrennt.

{ "mysql": {
   "hasDedicatedDb": false,
   "peerVip": "10.155.90.210",
   "peerNodes": "10.155.90.211"
   }
}

Pgsql

Disaster Recovery-Konfiguration im Zusammenhang mit der PgSQL-Datenbank am Remote-Standort

hasFmpm – Unabhängig davon, ob der Remote-Standort spezielle FMPM-Knoten umfasst

peerFmpmVip–VIP der Nach-Ort-Nodes (entweder normaler Knoten oder FM/PM-Spezialisierter Knoten)

peerNodes– Node-IP-Adressen der Nach-Ort-Knoten (entweder normaler Knoten oder FM/PM-Spezialisierter Knoten). Mehrere Einträge werden durch Kommas getrennt.

{ "psql": {
  "hasFmpm": false,
  "peerFmpmVip": "10.155.90.210",
  "peerNodes": "10.155.90.211"
  }
}

Datei

Konfigurations- und RRD-Dateien bezogene Disaster Recovery-Konfiguration am Remote-Standort

backup.maxCount – Maximale Anzahl an Backup-Dateien, die aufbewahrt werden müssen

backup.hoursOfDay – Tageszeiten zum Sichern von Dateien

backup.daysOfWeek – Tage der Woche zum Sichern von Dateien

restore.hoursOfDay – Uhrzeiten des Tages, um Dateien von der aktiven Site abzufragen

restore.daysOfWeek – Tage der Woche zum Abruf von Dateien von der aktiven Site

{ "file": {
  "backup": {
    "maxCount": 3,
    "hoursOfDay": "*",
    "daysOfWeek": "*" },
  "restore": {
    "hoursOfDay": "*",
"daysOfWeek": "*" }
  }
}

Watchdog

Disaster Recovery-Konfiguration im Zusammenhang mit dem Disaster Recovery Watchdog am aktuellen Standort

heartbeat.retries– Anzahl der Wiederholungen der Herzschlagnachricht

heartbeat.timeout – Timeout jeder Herzschlagnachricht in Sekunden

heartbeat.interval – Herzschlag-Nachrichtenintervall zwischen Standorten in Sekunden

notification.email-Kontakt-E-Mail-Adresse, um Serviceprobleme zu melden

notification.interval– Dämpfung des Intervalls zwischen dem Erhalt von E-Mails über betroffene Services

failureDetection.isCustom– Ob der Remote-Standort benutzerdefinierte Fehlererkennung verwendet

failureDetection.script– Pfad des Skripts zur Fehlererkennung

failureDetection.threshold.failover – Schwellenwertanteil zum Auslösen eines Failovers

failureDetection.threshold.adjustManaged–Schwellenwert-Prozentsatz zur Anpassung des Prozentsatzes der verwalteten Geräte

failureDetection.threshold.warning– Prozentsatz des Schwellenwerts für das Senden einer Warnung, um sicherzustellen, dass ein Disaster Recovery-Standort mehr Arbiter-Geräte erreichen kann, um die Genauigkeit des Geräte-Schiedsalgorithmus zu verbessern

failureDetection.waitDauer – Nachfrist, damit die ursprüngliche aktive Site wieder aktiv wird, wenn beide Standorte im Standby-Modus sind

failureDetection.arbiters – Liste der Arbiter-Geräte

{ "watchdog": {
  "heartbeat": {
"retries": 4,
"timeout": 5,
"interval": 30 },
  "notification": {
    "email": "abc@example.com",
    "interval": 3600 },
  "failureDetection": {
"isCustom": false,
"script": "/var/cache/jmp-geo/watchdog/bin/arbitration",
    "threshold": {
      "failover": 0.5,
      "adjustManaged": 0.5,
      "warning": 0.7 },
      "waitDuration": "8h",
      "arbiters": [{
        "username": "user1",
        "password": "xxx",
        "host": "10.155.69.114",
        "port": 22,
        "privateKey": ""
      }]
}
  }
}

Gerätemanagement

Geräteverwaltungs-IP-Adressen am Remote-Standort

peerNodes– Geräteverwaltungs-IP-Adressen des Remote-Standorts. Mehrere Einträge werden durch Kommas getrennt.

Knoten– Geräteverwaltungs-IP-Adressen am aktuellen Standort. Mehrere Einträge werden durch Kommas getrennt.

IP–Geräteverwaltung IP-Adresse und Schnittstelle auf diesem Knoten (Knoten, auf dem der jmp-dr api v1 config --list Befehl ausgeführt wird)

{ "deviceManagement": {
   "peerNodes": "10.155.90.211",
   "nodes": "10.155.90.222",
”ip”: “10.155.90.228,eth0”
 }
}

Staaten

Laufzeitinformationen der Disaster Recovery Watchdog-Services am aktuellen Standort. Wenn der Notfallwiederherstellungs-Watchdog noch nie auf dieser Website ausgeführt wurde, ist dieser Abschnitt nicht verfügbar. Wenn der Notfallwiederherstellungs-Watchdog angehalten wurde, sind die Informationen in diesem Abschnitt veraltet.

{ "states": {
    "arbiterMonitor": {
      "progress": "idle",
      "msg": {
        "service": "arbiterMonitor",
        "description": "",
        "state": true,
        "force": false,
        "progress": "unknown",
        "payload": {
          "code": 0
        },
        "time": "2015-07-18T22:18:55+00:00"
      },
"service": {}
   },
    "configMonitor": {
      "progress": "idle",
      "msg": {
        "service": "configMonitor",
        "description": "",
        "state": true,
        "force": false,
        "progress": "unknown",
        "payload": {
          "code": 0
        },
        "time": "2015-07-18T22:19:15+00:00"
      },"service": {}
    },
    "fileMonitor": {
      "progress": "idle",
      "msg": {
        "service": "fileMonitor",
        "description": "",
        "state": true,
        "force": false,
        "progress": "unknown",
        "payload": {
          "code": 0
        },
        "time": "2015-07-18T22:18:59+00:00"
      },
"service": {}
    },
    "heartbeat": {
      "progress": "unknown",
      "msg": {
        "service": "heartbeat",
        "description": "",
        "state": true,
        "force": false,
        "progress": "unknown",
        "payload": {
          "localFailover": false
        },
        "time": "2015-07-18T22:17:49+00:00"
      },
"service": {
        "booting": false,
        "bootEndTime": null,
        "waitTime": null,
        "automaticFailover": false,
        "automaticFailoverEndTime": "2015-07-18T07:41:41+00:00"
      }
    },
"mysqlMonitor": {
      "progress": "idle",
      "msg": {
        "service": "mysqlMonitor",
        "description": "",
        "state": true,
        "force": false,
        "progress": "unknown",
        "payload": {
          "code": 0
        },
        "time": "2015-07-18T22:19:09+00:00"
      },
"service": {}
    },
    "pgsqlMonitor": {
      "progress": "unknown",
      "msg": {
        "service": "pgsqlMonitor",
        "description": "Master node pgsql in active or standby site maybe CRASHED. Pgsql replication is in bad status. Please manually check Postgresql-9.4 status.",
        "state": false,
        "force": false,
        "progress": "unknown",
        "payload": {
          "code": 1098
        },
        "time": "2015-07-18T22:18:27+00:00"
      },"service": {}
    },
 
    "serviceMonitor": {
      "progress": "running",
      "msg": {
        "service": "serviceMonitor",
        "description": "",
        "state": true,
        "force": false,
        "progress": "unknown",
        "payload": {
          "code": 0
        },
        "time": "2015-07-18T22:19:30+00:00"
      },
      
"service": {}
    }
  }
}                                      

Die Ausgabe des benutzerdefinierten Skripts informiert den Notfallwiederherstellungs-Watchdog, ob ein Failover zum Standby-Standort erforderlich ist. Der Disaster Recovery Watchdog interpretiert die Ausgabe des Skripts im JSON-Format. Im Folgenden ist ein Beispiel:

Tabelle 2 beschreibt die Details der Skriptausgabe.

Tabelle 2: Details zur Benutzerdefinierten Skriptausgabe

Eigenschaft

Beschreibung

Datentyp

Werte oder Format

Weitere Details

Staat

Aktuelle Rolle der Disaster Recovery dieses Standorts

Schnur

aktiv

Standby

Erforderlich

Eine leere Zeichenfolge ist nicht zulässig.

Aktion

Aktion, die der Disaster Recovery Watchdog ausführen muss

Schnur

beActive – Ändern Sie die Rolle in aktiv.

beStandby– Ändern Sie die Rolle in Standby.

nichts– Ändern Sie die Rolle nicht.

warten– Warten Sie in der aktuellen Rolle für die in der payload.waitTime-Eigenschaft angegebene Zeit.

Erforderlich

Eine leere Zeichenfolge ist nicht zulässig.

Beschreibung

Beschreibung des Aktionsfelds und der in der E-Mail-Benachrichtigung gesendeten Nachricht

Schnur

Erforderlich

Eine leere Zeichenfolge ist zulässig.

payload.waitTime

Endzeit der Nachfrist, wenn beide Standorte standby werden

Zeichenfolge (Datum)

YYYY-MM-DD, UTC Time im Format HH:MM+00:00

Erforderlich

Eine leere Zeichenfolge ist zulässig.

Diese Eigenschaft wird verwendet, wenn Sie den Wert der Aktion als Warten angeben.

payload.details

Vom Benutzer angepasste Informationen, die zum Debuggen des Skripts verwendet werden können

JSON-Objekt

Optional

Eine leere Zeichenfolge ist nicht zulässig.

Schritte zur Konfiguration von Disaster Recovery

So konfigurieren Sie die Disaster Recovery zwischen einem aktiven Standort und einem Standby-Standort:

  1. Stoppen Sie den Disaster Recovery-Prozess, der bei früheren Versionen konfiguriert wurde, bevor Sie auf junos Space Network Management Platform Version 15.2R1 aktualisieren. Weitere Informationen zum Upgrade-Vorgang finden Sie im Abschnitt Upgrade-Anweisungen in den Versionshinweisen 15.2R1 der Junos Space Network Management-Plattform.

    Weitere Informationen zum Stoppen des Disaster Recovery-Prozesses, der in früheren Versionen konfiguriert wurde, finden Sie unter Stoppen des Disaster Recovery-Prozesses auf junos Space Network Management Platform Version 14.1R3 und früher.

    Sie müssen diesen Schritt nicht für eine saubere Installation der Junos Space Network Management-Plattform Version 15.2R1 durchführen.

  2. Richten Sie SMTP-Server an beiden Standorten über die Junos Space-Benutzeroberfläche ein, um Benachrichtigungen zu erhalten. Weitere Informationen finden Sie unter Verwalten von SMTP-Servern im Junos Space Network Management Platform Management Platform Workspaces Benutzerhandbuch.

  3. Kopieren Sie die Datei mit der Liste der Arbitergeräte (wenn Sie den Geräteschiedsalgorithmus verwenden) oder das benutzerdefinierte Skript zur Fehlererkennung an den entsprechenden Speicherort am aktiven Standort. Stellen Sie sicher, dass alle Arbiter-Geräte am aktiven Standort erkannt werden. Weitere Informationen finden Sie unter Übersicht über Geräteerkennungsprofile im Benutzerhandbuch junos Space Network Management Platform Workspaces.

  4. Konfigurieren Sie die Konfigurationsdatei für die Notfallwiederherstellung am aktiven Standort. Die Disaster Recovery-Konfiguration umfasst SCP-Einstellungen zur Synchronisierung der Konfiguration und RRD-Dateien, Herzschlageinstellungen, Benachrichtigungseinstellungen und den Mechanismus zur Fehlererkennung.

  5. Konfigurieren Sie die Konfigurationsdatei für die Notfallwiederherstellung am Standby-Standort. Die Disaster Recovery-Konfiguration umfasst SCP-Einstellungen zur Synchronisierung der Konfiguration und RRD-Dateien, Herzschlageinstellungen und Benachrichtigungseinstellungen.

  6. Starten Sie den Disaster Recovery-Prozess vom aktiven Standort aus.

    Weitere Informationen finden Sie unter Konfigurieren des Disaster Recovery-Prozesses zwischen einem aktiven und einem Standby-Standort.

Notfallwiederherstellungsbefehle

Sie verwenden die Befehle zur Notfallwiederherstellung, die in Tabelle 3 aufgeführt sind, um Disaster Recovery-Standorte zu konfigurieren und zu verwalten. Sie müssen diese Befehle am VIP-Knoten des Standorts ausführen. Sie können die --help Option mit diesen Befehlen verwenden, um weitere Informationen anzuzeigen.

Tabelle 3: Befehle zur Notfallwiederherstellung

Befehl

Beschreibung

Optionen

jmp-dr init

Initialisieren Sie die Konfigurationsdateien für die Notfallwiederherstellung an beiden Standorten.

Sie müssen Werte für die Parameter eingeben, die vom Befehl gefragt werden.

Erstellen Sie MySQL- und PgSQL-Benutzer und Passwörter, die zur Replizierung von Daten und zur Überwachung der Replikation über Disaster Recovery-Standorte hinweg erforderlich sind. Folgende Benutzer werden erstellt:

  • Benutzer mit einem Standard-Benutzernamen repUser und Passwort repPass für MySQL-Datenbankreplikation.

  • Benutzer mit einem Standard-Benutzernamen repAdmin und Kennwort repAdminPass zur Überwachung der MySQL-Datenbankreplikationsstatus und des Failovers.

  • Benutzer mit Standard-Benutzernamen-Replikation und Kennwortreplikation für PgSQL-Replikation.

  • Benutzer mit Standardbenutzername und Passwort zur Überwachung des PgSQL-Replikationszustands und -Failovers.

-a– Initialisieren Sie die Konfigurationsdatei für die Notfallwiederherstellung nur am aktiven Standort.

-s– Initialisieren Sie die Disaster Recovery-Konfigurationsdatei nur am Standby-Standort.

jmp-dr start

Starten Sie den Disaster Recovery-Prozess an beiden Standorten.

Sie müssen diesen Befehl am VIP-Knoten des aktiven Standorts ausführen. Der aktive Standort baut eine SSH-Verbindung zum Standby-Standort auf und führt den jmp-dr start Befehl am Standby-Standort aus.

Wenn Sie diesen Befehl ausführen, wird die MySQL-Datenbank und die PgSQL-Datenbankreplikation und -Konfiguration sowie die Sicherung von RRD-Dateien auf den Standby-Standort eingeleitet.

Sie führen diesen Befehl aus:

  • Um den Disaster Recovery-Prozess zunächst zu starten

  • So starten Sie den Disaster Recovery-Prozess neu, nachdem Sie den Prozess zum Upgrade Ihrer Junos Space-Einrichtung beendet haben.

-a–Starten Sie den Disaster Recovery-Prozess nur am aktiven Standort.

-s–Starten Sie den Disaster Recovery-Prozess nur am Standby-Standort.

jmp-dr toolkit config update

Wenn der Befehl ohne Optionen ausgeführt wird, wird der Befehl:

  • Zeigt die geänderte Clusterkonfiguration an einem Standort an und aktualisiert sie am lokalen Standort.

  • Akzeptiert und aktualisiert die geänderte Clusterkonfiguration am Remotestandort.

Sie müssen den Befehl in der folgenden Reihenfolge ausführen:

  1. Übernehmen und aktualisieren Sie die Änderungen an der Clusterkonfiguration an beiden Standorten.

  2. Aktualisieren Sie Load-Balancer-Änderungen und ändern und aktualisieren Sie SCP-Timeout-Einstellungen an beiden Standorten.

  3. Ändern und aktualisieren Sie andere Konfigurationsparameter für die Notfallwiederherstellung.

Sie müssen diesen Befehl am VIP-Knoten des lokalen Standorts ausführen, um die Konfiguration und den VIP-Knoten des Remote-Standorts zu ändern, um die geänderte Konfiguration zu akzeptieren.

Verwenden Sie die folgenden Optionen, um die Disaster Recovery-Konfiguration an einem Standort zu ändern und die Änderung am Peer-Standort zu aktualisieren:

-user-core– Ändern Sie die Einstellungen für VIP-Adresse, Kennwort und SCP-Timeout.

-user-file-backup– Ändern Sie die Konfigurations- und RRD-Dateien-Backup-Einstellungen.

-user-file-restore– Ändern Der Konfiguration und der Replikation von RRD-Dateien in Standby-Standorteinstellungen.

-user-watchdog-heartbeat– Ändern Sie die Herzschlageinstellungen für die Notfallwiederherstellung.

-user-watchdog-notification– Ändern Sie die Einstellungen für E-Mail-Benachrichtigungen.

-user-watchdog-failureDetection– Ändern Sie die Einstellungen für die Fehlererkennung.

jmp-dr health

Überprüfen Sie den Status des Disaster Recovery-Prozesses.

Der Befehl prüft, ob MySQL- und PgSQL-Datenbanken repliziert und Konfigurations- und RRD-Dateien gesichert werden, und überprüft den Status des Disaster Recovery Watchdog und meldet Fehler.

jmp-dr stop

Stoppen Sie den Disaster Recovery-Prozess zwischen Standorten.

Wenn Sie diesen Befehl ausführen, werden die MySQL- und PgSQL-Datenbankreplikation und -Konfiguration und die Sicherung von RRD-Dateien zwischen Standorten angehalten. Die Datendateien für die Notfallwiederherstellung werden nicht gelöscht. Der Status von Services wie JBoss, OpenNMS, Apache bleibt unverändert.

jmp-dr reset

Stoppen Sie den Disaster Recovery-Prozess und löschen Sie die Datendateien für die Notfallwiederherstellung von einem Standort. Der Standort initiiert Services als eigenständiges Cluster.

Sie müssen diesen Befehl am VIP-Knoten beider Standorte ausführen, um den Disaster Recovery-Prozess vollständig zu stoppen und die Datendateien für die Notfallwiederherstellung von beiden Standorten zu löschen.

jmp-dr manualFailover

Manuelles Failover zum Standby-Standort.

Wenn Sie diesen Befehl ausführen, wird der Standby-Standort zum neuen aktiven Standort und der aktive Standort wird zum neuen Standby-Standort.

-a– Ändern Sie die Rolle des Standorts manuell in "aktiv".

-s– Ändern Sie die Rolle des Standorts manuell in Standby.

jmp-dr toolkit watchdog status [options]

Aktivieren Sie das automatische Failover zum Standby-Standort oder deaktivieren Sie das automatische Failover zum Standby-Standort für eine festgelegte Dauer.

Hinweis:

Sie können diesen Befehl nur ausführen, wenn der Notfallwiederherstellungs-Watchdog am Standort aktiv ist.

–enable-automatic-failover– Aktivieren Sie das automatische Failover zum Standby-Standort.

–disable-automatic-failover duration– Deaktivieren Sie das automatische Failover zum Standby-Standort für eine festgelegte Zeitdauer. Geben Sie die Zeitdauer in Stunden oder Minuten ein. Zum Beispiel 1h oder 30m. Wenn Sie "h" oder "m" nicht zusammen mit dem Wert ( z. B. 2 ) eingeben, wird die Standarddauer in Stunden berechnet. Wenn Sie null eingeben, wird das automatische Failover dauerhaft deaktiviert.

jmp-dr api v1 config

Zeigen Sie die Disaster Recovery-Konfigurations- und Laufzeitinformationen im JSON-Format an.

--list–Zeigen Sie bestimmte Abschnitte der Disaster Recovery-Konfiguration und den Status der Watchdog-Services für die Notfallwiederherstellung an. In Tabelle 1 sind die Abschnittsnamen aufgeführt.

–-include<sections>– Fügen Sie spezifische Abschnitte der Disaster Recovery-Konfiguration und des Status der Watchdog-Services für die Notfallwiederherstellung in das benutzerdefinierte Skript zur Fehlererkennung ein. Trennen Sie mehrere Abschnittsnamen durch Kommas.

Wenn Sie diesen Befehl in ein benutzerdefiniertes Skript zur Fehlererkennung einschließen, ruft der Befehl die Disaster Recovery-Konfiguration und den Status der Disaster Recovery Watchdog-Services ab und führt die Logik im Skript aus.