Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Umgang mit Fehlern

Konfigurieren von FPC-Fehlerstufen und -Aktionen

Beginnend mit Junos OS Version 13.3 oder Version 14.2 für M320-Router können Sie Router der MX-Serie, PTX-Serie und T-Serie verwenden, um PFE-bezogene Fehlerstufen im Zusammenhang mit der Packet Forwarding Engine (PFE) auf FPCs und die Aktionen zu konfigurieren, die ausgeführt werden sollen, wenn ein bestimmter Schwellenwert erreicht wird. In Junos OS Version 13.2 und früher deaktivierten Fehler der Packet Forwarding Engine die FPC. Wenn Sie den error Befehl verwenden, können Fehler der Packet Forwarding Engine isoliert werden, wodurch die Notwendigkeit eines Feldaustauschs verringert wird. Mit dem error Befehl können Sie Fehler nach Schweregrad klassifizieren, für jeden Schweregrad eine automatische Wiederherstellungsaktion festlegen und die Aktionen konfigurieren, die ausgeführt werden sollen, wenn ein bestimmter Schwellenwert erreicht wird. Dieser Befehl ist in den Hierarchien und [edit chassis fpc slot-number] [edit chassis] verfügbar.

So konfigurieren Sie die Fehlerstufen und Aktionen der Packet Forwarding Engine für eine FPC:

  • (Optional) Konfigurieren Sie den Schwellenwert und die Aktion für die Stufe des schwerwiegenden Fehlers. Ein schwerwiegender Fehler ist ein Fehler, der dazu führt, dass eine beträchtliche Menge des Datenverkehrs modulübergreifend blockiert wird.

    Wenn der Schweregrad des Fehlers schwerwiegend ist, wird die Aktion ausgeführt, wenn die Gesamtzahl der Fehler den Schwellenwert erreicht. Nachdem der Schwellwert überschritten wurde, wird für jedes Auftreten des Fehlers eine Aktion ausgeführt.

  • (Optional) Konfigurieren Sie den Schwellenwert und die Aktion für die Hauptfehlerebene. Ein schwerwiegender Fehler ist ein Fehler, der zu einem anhaltenden Verlust von Paketdatenverkehr führt, sich jedoch nicht auf andere Module auswirkt.

    Wenn der Schweregrad des Fehlers schwerwiegend ist, wird die Aktion ausgeführt, wenn die Gesamtzahl der Fehler den Schwellenwert erreicht. Nachdem der Schwellwert überschritten wurde, wird für jedes Auftreten des Fehlers eine Aktion ausgeführt.

  • (Optional) Konfigurieren Sie den Schwellenwert und die Aktion für die geringfügige Fehlerebene. Ein geringfügiger Fehler ist ein Fehler, der zum Verlust eines einzelnen Pakets führt, aber vollständig behoben werden kann.

    Wenn der Schweregrad gering ist, wird die Aktion nur einmal ausgeführt, wenn die Gesamtzahl der Fehler den Schwellenwert erreicht

Ab Junos OS Version 18.1R3 unterstützen Router der MX-Serie die Konfiguration von Fehlerschwellenwerten und -aktionen auf den Ebenen Fehlerumfang und Fehlerkategorie. Verwenden Sie den Befehl set chassis fpc fpc-slot error scope error-scope category category (fatal | major | minor) threshold error-threshold action (alarm | disable-pfe | get-state | offline | log | reset | trap | online-pfe | reset-pfe) , um einen Schwellenwert und eine Aktion für einen bestimmten Fehlerbereich und eine bestimmte Fehlerkategorie auf FPC-Ebene zu konfigurieren. Sie können diese Funktionen auch auf Gehäuseebene (in der [edit chassis] Hierarchie) konfigurieren. Schwellenwert und Aktion, die in der [edit chassis fpc] Hierarchie konfiguriert sind, haben jedoch Vorrang vor derselben Konfiguration in der Hierarchie [edit chassis] .

Sie können den Befehl show chassis fpc errors verwenden, um die Fehlerinformationen auf Fehlerbereichs- und Kategorieebene anzuzeigen.

Für Junos OS Evolved können Sie die Fehlerinformationen mit den folgenden show Befehlen anzeigen:

  • show system errors count– Zeigt systemweite Fehler und deren Anzahl an.

  • show system errors active– Zeigt aktuell aktive Fehler im System an.

  • show system errors active fpc <slot number> – Zeigt aktive Fehler für den angegebenen FPC an.

  • show system errors fru detail– Zeigt einen detaillierten FRU-spezifischen Fehler an.

  • show system errors fru detail fpc <slot number>: Zeigt Informationen zu erkannten Fehlern basierend auf der FRU an.

Wenn Sie die Aktion log für einen bestimmten Fehlerschwellenwert konfiguriert haben, protokolliert das System das Ereignis, wenn die Fehleranzahl den festgelegten Schwellenwert überschreitet. Die folgenden Beispiel-Syslog-Meldungen weisen auf eine Überschreitung des Fehlerschwellenwerts und die daraus resultierende Aktion hin:

reset-pfe Die offline, reset, disable-pfe, offline-pfe und-Aktionen schließen sich in Bezug auf die Konfiguration gegenseitig aus. Die angegebene PFE wird automatisch deaktiviert, falls offline-pfe oder reset-pfe konfiguriert.

Anmerkung: Für MPC6E wurde eine standardmäßige FPC-Großalarmaktion hinzugefügt. Die Option disable-pfe ist ab Junos 17.4 und höher verfügbar.

Die folgende Tabelle enthält Details zu PFE-Fehlerzuordnungsaktionen und der Systemreaktion:

Tabelle 1: PFE-Fehlerzuordnungsaktion und -reaktion
Reaktion der Handlung
disable-pfe Deaktiviert alle PFE-Schnittstellen, Alarme und Protokolle.
offline Schaltet den FPC offline, deaktiviert die Alarme und Protokolle.
reset Schaltet den FPC offline und setzt ihn auf online zurück, aktiviert die Alarme und Protokolle.
reset-pfe Schaltet die PFE aus, deaktiviert die Alarme und Protokolle, schaltet dann die PFE ein und aktiviert die Alarme und Protokolle.
offline-pfe Schaltet die PFE aus, deaktiviert die Alarme und Protokolle,

Beispiel: Konfigurieren der FPC-Fehlererkennung und Selbstreparatur auf Core-Routern der T-Serie

Dieses Beispiel zeigt, wie die Fehlererkennung und Selbstreparatur auf einem Core-Router der T-Serie von Juniper Networks mit FPC vom Typ 5 konfiguriert wird.

Anforderungen

In diesem Beispiel werden die folgenden Hardware- und Softwarekomponenten verwendet:

  • Core-Router T4000 von Juniper Networks mit FPCs vom Typ 5.

  • Junos OS Version 13.3 oder höher.

Bevor Sie fortfahren, stellen Sie sicher, dass die erforderlichen Verbindungen vollständig sind und die Schnittstellen funktionsfähig sind.

Überblick

Die FPC-Fehlererkennung und Selbstreparatur umfasst die Konfiguration einer Reihe von Aktionen, die für jeden FPC ausgeführt werden sollen, wenn die Anzahl der Fehler für einen bestimmten Schweregrad einen vom Benutzer konfigurierten Schwellenwert überschreitet. Der Schweregrad des Fehlers wird in schwerwiegend, schwerwiegend und geringfügig kategorisiert. Zu den Wiederherstellungsaktionen gehören das Auslösen eines Alarms, das Generieren von Protokolleinträgen, das Abrufen des aktuellen Status des FPC, das Neustarten des FPC, das Offlineschalten des FPC und das Zurücksetzen des FPC. Für einen bestimmten FPC und einen bestimmten Schweregrad des Fehlers können Sie den Fehlerschwellenwert auf einen beliebigen Wert innerhalb der zulässigen Grenzen konfigurieren und den Schwellenwert einer Aktion zuordnen. In diesem Beispiel legen Sie diese Fehler auf FPC 0 im Core-Router T4000 von Juniper Networks fest.

Konfiguration

Um die Fehlererkennung und Selbstheilung zu konfigurieren, müssen Sie den Schweregrad des Fehlers, die Schwellenwerte für jeden Fehlerschweregrad und die Aktionen festlegen, die ausgeführt werden sollen, wenn der Schwellenwert überschritten wird.

CLI Schnellkonfiguration

Um dieses Beispiel schnell zu konfigurieren, kopieren Sie die folgenden Befehle, fügen Sie sie in eine Textdatei ein, entfernen Sie alle Zeilenumbrüche, ändern Sie alle Details, die erforderlich sind, um sie an Ihre Netzwerkkonfiguration anzupassen, und kopieren Sie dann die Befehle, und fügen Sie sie dann in die CLI auf der Hierarchieebene [Schnittstellen bearbeiten] ein.

Konfigurieren der Fehlererkennung und Selbstreparatur

Schritt-für-Schritt-Anleitung

Im folgenden Beispiel müssen Sie durch verschiedene Ebenen in der Konfigurationshierarchie navigieren. Weitere Informationen zum Navigieren in der CLI finden Sie unter Verwenden des CLI-Editors im Konfigurationsmodus und im CLI-Benutzerhandbuch.

  • Konfigurieren Sie den Schwellenwert und die zugehörige Aktion für schwerwiegende Fehler.

    1. Legen Sie den Schweregrad des Fehlers auf "Schwerwiegend" fest.

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal

    2. Legen Sie den Schwellenwert für schwerwiegende Fehler fest.

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal threshold 1

    3. Legen Sie die zugeordnete Aktion für schwerwiegende Fehler fest.

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal threshold 1 action reset

  • Konfigurieren Sie den Schwellenwert und die zugehörige Aktion für schwerwiegende Fehler.

    1. Legen Sie den Schweregrad des Fehlers auf Major fest.

      [edit interfaces]

      user@host# set chassis fpc 0 error major

    2. Legen Sie den Schwellenwert für größere Fehler fest.

      [edit interfaces]

      user@host# set chassis fpc 0 error major threshold 1

    3. Legen Sie die zugehörige Aktion für größere Fehler fest.

      [edit interfaces]

      user@host# set chassis fpc 0 error major threshold 1 action alarm

  • Konfigurieren Sie den Schwellenwert und die zugehörige Aktion für kleinere Fehler.

    1. Legen Sie den Schweregrad des Fehlers auf geringfügig fest.

      [edit interfaces]

      [edit interfaces]

      user@host# set chassis fpc 0 error minor

    2. Legen Sie den Schwellenwert für kleinere Fehler fest.

      [edit interfaces]

      user@host# set chassis fpc 0 error minor threshold 10

    3. Legen Sie die zugehörige Aktion für kleinere Fehler fest.

      [edit interfaces]

      user@host# set chassis fpc 0 error minor threshold 10 action log

Befund

Im Folgenden finden Sie das Ergebnis der Konfiguration für den schwerwiegenden Schweregrad.

Wenn Sie mit der Konfiguration der Geräte fertig sind, wechseln Sie commit aus dem Konfigurationsmodus.

Verifizierung

Verwenden Sie den folgenden show chassis fpc errors Befehl, um zu überprüfen, ob die Konfiguration erfolgreich war und der Router mit der richtigen Aktion konfiguriert wurde.

Überprüfen der konfigurierten Aktionen im Zusammenhang mit dem schwerwiegenden Schweregrad des FPC-Fehlers

Zweck

Stellen Sie sicher, dass der Schwellenwert und die zugehörige Aktion für schwerwiegende Fehler festgelegt sind.

Aktion
Bedeutung

Die Beispielausgabe zeigt Fatal einen Fehler bei FPC 0 mit 0 Fehler Occurred (keine vorherigen Vorkommen), 0 Fehler Cleared (keine vorherigen Vorkommen) mit Threshold dem Wert auf 1 und Action-Taken dem Wert auf RESET.

Verwalten von FPC-Fehlern

Auf den Routern der PTX-Serie können Sie einen FPC-Fehler deaktivieren oder den Schweregrad des Fehlers auf der Fehler-ID-Ebene ändern. Weitere Informationen zu PTX-Plattformen, die diese Funktion unterstützen, finden Sie unter FPC-Selbstheilung .

Die Fehler-ID, die einen FPC-Fehler eindeutig identifiziert, wird im URI-Format (Uniform Resource Identifier) dargestellt und setzt sich aus einem Modulbezeichner und einem Fehlerbezeichner zusammen. Wenn ein Fehler auftritt, finden Sie die Fehler-ID in den Systemprotokollmeldungen.

Ändern des Schweregrads eines Fehlers

Sie können zwar keinen neuen Schweregrad konfigurieren, aber Sie können den vorhandenen Schweregrad eines Fehlers ändern. Wenn Sie z. B. einen bestimmten Fehler (identifiziert durch eine Fehler-ID) nicht mehr als schwerwiegend behandeln möchten, können Sie den Schweregrad nach Bedarf in "Schwerwiegend" oder "Geringfügig" ändern.

Anmerkung:

Sie können den Schweregrad des Fehlers nicht auf Gruppenebene (z. B. Kategorie) ändern.

Verwenden Sie den folgenden Befehl, um den Schweregrad eines Fehlers zu ändern:

Sehen Sie sich das folgende Beispiel an:

Im obigen Beispiel haben Sie den Schweregrad der Fehler-ID “/cpu/0/memory/0/memory-uncorrected-error” in FPC 3 in minorgeändert.

Deaktivieren eines Fehlers

Um das System so zu konfigurieren, dass es keinen Fehler mehr meldet, identifizieren Sie die Fehler-ID und deaktivieren Sie sie. Die Fehler-ID finden Sie in den System-Log-Meldungen. Um einen Fehler zu deaktivieren, verwenden Sie den folgenden Befehl:

Sehen Sie sich das folgende Beispiel an:

Im obigen Beispiel haben Sie den Fehler “/cpu/0/memory/0/memory-uncorrected-error” in FPC 3 deaktiviert.

Ausschalten von Paketweiterleitungs-Engines

Sie können die Packet Forwarding Engines in einem laufenden System ein- oder ausschalten oder eine Packet Forwarding Engine ausgeschaltet lassen, wenn die FPC online geht. Im Folgenden finden Sie einige Szenarien, in denen diese Funktion verwendet wird.

  • Wenn der ASIC der Packet Forwarding Engine nicht richtig funktioniert.

  • Um Strom zu sparen, falls die Bereitstellung nicht die volle Kapazität des Systems erfordert.

Gehen Sie folgendermaßen vor, um eine Packet Forwarding Engine auszuschalten:

Führen Sie die folgenden Schritte aus, um eine Paketweiterleitungs-Engine einzuschalten:

Anmerkung:

Sie müssen diese Konfiguration auf beide Paketweiterleitungs-Engines in einem ASIC anwenden, um die Konfiguration bestätigen zu können.

Anmerkung:

Auf Routern der MX-Serie mit MPC10E-15C-MRATE können Sie nur die Packet Forwarding Engine 2 ausschalten oder einschalten. Die Packet Forwarding Engines 0 und 1 unterstützen diesen Befehl nicht. Auf dem MPC10E-15C-MRATE müssen für den Betrieb der Packet Forwarding Engine 2 die Packet Forwarding Engines 0 und 1 funktionsfähig sein. Sie können den Befehl show chassis fpc fpc-lot detail verwenden, um den Ein-/Ausschaltstatus und die Bandbreite der Packet Forwarding Engine für die einzelnen Paketweiterleitungsmodule im MPC10E-15C-MRATE anzuzeigen.

Sie können den show chassis fpc fpc-slot detail Befehl verwenden, um den Ein-/Ausschaltkonfigurationsstatus der Packet Forwarding Engine anzuzeigen. Sehen Sie sich ein Beispiel unten an:

Konfigurieren von Sanity Polling

Sie können die sanity-poll Anweisung für eine bestimmte FPC, FEB oder CFEB so konfigurieren, dass eine regelmäßige Plausibilitätsprüfung für diese FPC, FEB oder CFEB gestartet wird. Die regelmäßige Plausibilitätsprüfung umfasst die Suche nach Fehlerbedingungen wie "Probleme mit der Registerkorrektheit", "hohe Temperatur", "Hardwarefehler" usw. Wenn Sie die Anweisung nicht konfigurieren, ist die sanity-poll Überprüfung der Sicherheit deaktiviert.

Anmerkung:

Derzeit wird die regelmäßige Plausibilitätsprüfung nur für das Routing-Chip-Register durchgeführt.

Die Sanity-Abfrage prüft regelmäßig auf eine Fehlerbedingung in einem FPC, FEB oder CFEB und führt im Falle eines Fehlers die entsprechenden Aktionen aus.

  • Um die Plausibilitätsabfrage für eine FPC auf Routern der T-Serie und M320-Routern zu konfigurieren, schließen Sie die sanity-poll Anweisung und ihre Unteranweisungen auf der [edit chassis fpc slot-number] Hierarchieebene ein:

  • Um die Sanity-Abfrage für einen FEB auf dem M120-Router zu konfigurieren, schließen Sie die sanity-poll Anweisung und ihre Unteranweisungen auf der [edit chassis feb slot-number] Hierarchieebene ein:

  • Um die Sanity-Abfrage für einen CFEB auf M7i- und M10-Routern zu konfigurieren, schließen Sie die sanity-poll Anweisung und ihre Unteranweisungen auf der [edit chassis cfeb slot-number] Hierarchieebene ein:

Anmerkung:

Auf einem TX Matrix- oder TX Matrix Plus-Router können Sie die sanity-poll Anweisung auf Hierarchieebene [edit chassis lcc number fpc number] konfigurieren.

Die sanity-poll Erklärung umfasst die folgenden Teilaussagen:

  • Die retry-count Anweisung gibt die Anzahl der erneuten Überprüfungen an, die nach dem Auftreten einer bestimmten Fehlerbedingung durchgeführt werden sollen. Wenn bei allen regelmäßigen Überprüfungen ein Fehler auftritt, meldet die Sanity-Abfrage einen Fehler und führt die entsprechenden Aktionen aus (die als Optionen der on-error Anweisung beschrieben werden).

    Wenn z. B. bei der regelmäßigen Plausibilitätsprüfung ein Fehler in FPC, FEB oder CFEB erkannt wird und Sie den retry count number Wert auf 15 konfigurieren, wird der Fehler nicht sofort gemeldet. Die Plausibilitätsabfrage prüft 15 Mal auf dieselbe Fehlerbedingung. Wenn ein Fehler bei allen 15 erneuten Überprüfungen weiterhin auftritt, wird ein Fehler gemeldet und die entsprechenden Maßnahmen ergriffen.

    Wenn Sie die retry-count Anweisung nicht konfigurieren, überprüft die sanity-poll Anweisung den erkannten Fehler standardmäßig 10 Mal, bevor eine Fehlerbedingung gemeldet wird.

  • Wenn die Plausibilitätsabfrage eine Fehlerbedingung erkennt, führt die Anweisung on-error die entsprechenden Aktionen aus, um den Fehler zu beseitigen.

    Die folgenden Aktionen sind für alle Arten von Fehlerbedingungen gleich:

    • Um einen Chassis-Alarm zu generieren, konfigurieren Sie die Anweisung raise-alarm . Der Gehäusealarm wird an der Vorderseite des Gehäuses angezeigt.

    • Um FPC, FEB oder CFEB nach dem Generieren einer Core-Datei neu zu starten, konfigurieren Sie die Anweisung power cycle . Diese Anweisung ist nützlich für temporäre Softwarefehler, die nach einem Neustart behoben werden.

    • Um die FPC, FEB oder CFEB zu beenden, konfigurieren Sie die Anweisung power off . Diese Anweisung ist nützlich im Falle eines permanenten Hardwareausfalls.

      VORSICHT:

      Die power off Anweisung stoppt den FPC. Stellen Sie sicher, dass Sie über Backup-Pfade über einen anderen FPC oder FEB oder CFEB verfügen, um Serviceausfälle zu vermeiden.

      Anmerkung:

      Die power cycle and-Anweisungen power off schließen sich gegenseitig aus: Sie können entweder die power cycle oder die power off Aktion für einen Fehler konfigurieren.

    • Um die Kerndatei auszulösen, konfigurieren Sie die Anweisung write-coredump .

Sie können mehrere Aktionen für einen bestimmten FPC, FEB oder CFEB konfigurieren. Wenn Sie keine Aktionen konfigurieren, generiert die sanity-poll Anweisung nur FPC-, FEB- oder CFEB-Systemprotokollmeldungen.

Konfigurieren von Junos OS, damit ein flexibler PIC-Konzentrator offline bleibt

Standardmäßig ist ein Flexible PIC Concentrator (FPC) so konfiguriert, dass er nach einem Neustart des Systems neu gestartet wird. Sie können den request chassis fpc Befehl "Betriebsmodus" verwenden, um einen FPC offline zu schalten, aber unter Junos OS versucht der FPC neu zu starten, wenn Sie einen commit CLI-Befehl eingeben. Um einen FPC so zu konfigurieren, dass er offline bleibt und einen Neustart verhindert, fügen Sie die power off Anweisung auf der [edit chassis fpc slot-number] Hierarchieebene ein:

Um einen FPC online zu schalten, der so konfiguriert ist, dass er offline bleibt, und ihn so zu konfigurieren, dass er online bleibt, fügen Sie die power on Anweisung auf der [edit chassis fpc slot-number] Hierarchieebene ein:

Konfigurieren eines SFM so, dass er offline bleibt

Wenn Sie den request chassis sfm CLI-Befehl verwenden, um ein SFM (Switching and Forwarding Module) offline zu schalten, versucht das SFM standardmäßig neu gestartet zu werden, wenn Sie einen commit CLI-Befehl eingeben. Um einen Neustart zu verhindern, können Sie einen SFM so konfigurieren, dass er offline bleibt. Diese Funktion ist nützlich für Reparatursituationen.

Um einen SFM so zu konfigurieren, dass er offline bleibt, fügen Sie die sfm Anweisung auf der [edit chassis] Hierarchieebene ein:

  • slot number– Steckplatznummer, in der das SFM installiert ist.

  • power off– Schalten Sie den SFM offline, und konfigurieren Sie ihn so, dass er offline bleibt.

Mit der folgenden Anweisung wird z. B. ein SFM in Steckplatz 3 offline geschaltet:

Verwenden Sie den show chassis sfm CLI-Befehl, um den Offline-Status zu bestätigen:

Um den SFM wieder online zu schalten, löschen Sie die edit chassis sfm Anweisung, und übernehmen Sie dann einen Commit für die Konfiguration.

Neusynchronisieren von FPC-Sequenznummern mit aktiven FPCs, wenn ein FPC online geht

Wenn Sie bei den Routern M320, T320, T640, T1600, T4000, TX Matrix und TX Matrix Plus einen Flexible PIC Concentrator (FPC) online schalten, wird die Sequenznummer auf dem FPC möglicherweise nicht mit den anderen aktiven FPCs im Router synchronisiert, was zum Verlust einer kleinen Menge des anfänglichen Datenverkehrs führen kann.

Um Datenverkehrsverluste zu vermeiden, schließen Sie die fpc-resync Anweisung auf der [edit chassis] Hierarchieebene ein. Dadurch wird sichergestellt, dass die Sequenznummern des FPC, der online geschaltet wird, mit den anderen aktiven FPCs im Router synchronisiert werden.

Anmerkung:

Um eine Null-Routen-Filterung zu verhindern, hat der fpc-resync Befehl keine Auswirkungen, wenn ein einzelner LMNR-basierter FPC und ein oder mehrere I-Chip-FPCs im selben Gehäuse vorhanden sind.

Aktivieren eines Routing-Moduls für den Neustart bei Festplattenfehlern

Wenn ein Festplattenfehler auftritt, kann eine Routing-Engine in einen Zustand wechseln, in dem sie auf lokale Pings reagiert und Schnittstellen aktiv bleiben, aber keine anderen Prozesse reagieren.

Um diese Situation zu beheben, können Sie eine einzelne Routing-Engine so konfigurieren, dass sie automatisch neu gestartet wird, wenn ein Festplattenfehler auftritt. Um diese Funktion zu aktivieren, schließen Sie die on-disk-failure reboot Anweisung auf der [edit chassis routing-engine] Hierarchieebene ein.

In Umgebungen mit zwei Routing-Engines können Sie eine Backup-Routing-Engine so konfigurieren, dass sie automatisch die primäre Rolle übernimmt, wenn ein Festplattenfehler auf der primären Routing-Engine erkannt wird. Um diese Funktion zu aktivieren, schließen Sie die on-disk-failure Anweisung auf der [edit chassis redundancy failover] Hierarchieebene ein. Hinweise zu dieser Anweisung finden Sie im Junos OS High Availability User Guide.

Sie können die Routing-Engine so konfigurieren, dass sie angehalten wird (anstatt neu gestartet zu werden), wenn die Festplatte der Routing-Engine ausfällt. Um diese Funktion zu konfigurieren, fügen Sie die Anweisung disk-failure-action (halt | reboot) auf der [edit chassis routing-engine on-disk-failure] Hierarchieebene ein:

Verwenden Sie die Option anhalten , um die Routing-Engine so zu konfigurieren, dass sie angehalten wird, wenn die Festplatte ausfällt. Verwenden Sie die Option Neustart , um die Routing-Engine so zu konfigurieren, dass sie neu gestartet wird, wenn die Festplatte ausfällt.

Behandlung von thermischen Zustandsereignissen mithilfe von thermischer Zustandsprüfung und PSM Watchdog

Sie können die Funktion zur Überprüfung des thermischen Zustands verwenden, um eine Aktion zu konfigurieren, die bei der Erkennung eines thermischen Zustandsereignisses, z. B. eines Stromausfalls, ausgeführt werden soll. Die Funktion zur thermischen Überprüfung überwacht den Stromausgang des Stromversorgungsmoduls (PSM) und den Stromverbrauch der FRU. Wenn festgestellt wird, dass die Ausgangsleistung des PSM den Stromverbrauch der FRU um einen benutzerdefinierten Schwellenwert überschreitet, geht sie davon aus, dass ein thermisches Gesundheitsereignis vorliegt, und ergreift eine Aktion basierend auf der Benutzerkonfiguration. Sie können Aktionen wie das automatische Herunterfahren oder Alarme konfigurieren, die bei Erkennung eines thermischen Gesundheitsereignisses ausgelöst werden. Ein Beispiel für die Konfiguration lautet wie folgt: set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700. Diese Beispielkonfiguration ermöglicht es der Software, ein thermisches Zustandsereignis zu erkennen, wenn der Stromausfall 700 W überschreitet, und das System 10 Sekunden nach der Erkennung des thermischen Zustandsfehlers herunterzufahren.

Die Funktion zur Überprüfung des thermischen Zustands funktioniert nur, wenn:

  • Der Router verfügt über die AC- oder DC-Stromverteilungseinheiten (PDU) mit hoher Kapazität in beiden Steckplätzen, und jede PDU verfügt über die gleiche Anzahl von PSMs. Es werden sowohl AC PSM als auch DC PSM unterstützt.

    Die unterstützten PSMs und PDUs sind unten aufgeführt:

    • AC PSM mit hoher Kapazität (Modell: PSM2-PTX-AC; Firmware: 0210 oder höher; Hardware-Version: 06 oder höher)

    • 60 A DC PSM mit hoher Kapazität (Modell: PSM2-PTX-DC; Firmware: 0315 oder höher; Hardware-Version: 09 oder höher)

    • 60A DC PDU MIT HOHER KAPAZITÄT (Modell: PDU2-PTX-DC; Firmware-Version 0404 oder höher mit Hardware-Revision 07 verwenden; Firmware-Version 0503 oder höher mit Hardware-Revision 08 verwenden)

    • AC-Delta-PDU mit hoher Kapazität (Modell: PDU2-PTX-AC-D; Firmware: 0305 oder höher; Hardware-Version: 04 oder höher)

    • Hochleistungs-AC-Wye-PDU (Modell: PDU2-PTX-AC-W, Firmware: 0305 oder höher; Hardware-Version: 03 oder höher)

    • Einphasige AC-PDU mit hoher Kapazität (Modell: PDU2-PTX-AC-SP; Firmware: 0102 oder höher; Hardware-Version: 03 oder höher)

  • Jede PDU verfügt über mindestens drei PSMs, die online sind, und jedes Online-PSM verbraucht einen Strom von über 60 A (im Falle eines AC-PSMs) oder über 100 A Strom (im Falle eines DC-PSMs).

  • Keine der FRUs (RE, SIB und FPC) befindet sich im Status "Present".

Auf dem Router können Sie die PSM-Watchdog-Funktion auch in der Hierarchie [Gehäuse bearbeiten] konfigurieren. Wenn ein thermisches Gesundheitsereignis zu einem Ausfall von Junos führt, erkennt die PSM-Watchdog-Funktion dies und fährt den Router herunter. In der Watchdog-Konfiguration können Sie den Watchdog-Timer in Sekunden angeben. Nach Ablauf der angegebenen Dauer läuft der Watchdog ab. Sie können auch die Häufigkeit (in Minuten) angeben, mit der Junos den Watchdog-Zähler zurücksetzt. Wenn der Watchdog-Zähler aus Gründen wie einem Absturz der Routing-Engine nicht zurückgesetzt wird, schaltet der PSM die Ausgangsleistung nach Ablauf des Watchdog-Timers ab und fährt dadurch den Router herunter.

Beispielkonfigurationen sind wie folgt:

  • Verwenden Sie set chassis psm watchdog timeout 600 pat-frequency 2. Mit diesem Befehl wird der PSM-Watchdog aktiviert, wenn der Watchdog-Timer auf 600 Sekunden eingestellt ist und der Zähler alle 2 Minuten zurückgesetzt wird.
  • Verwenden Sie set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10.. Dieser Befehl aktiviert die thermische Zustandsprüfung und schaltet das System 10 Sekunden nach Erkennung eines FET-Fehlers herunter.
Anmerkung:

Die PSM-Watchdog-Funktion funktioniert nur, wenn alle Online-PSMs im Router diese Funktion unterstützen.

Kurz gesagt: Wenn die Routing-Engine-Software ausgeführt wird, während ein thermisches Ereignis eintritt, erkennt die Funktion zur Überprüfung des thermischen Zustands das thermische Ereignis und führt eine Aktion aus. Wenn jedoch die Routing-Engine-Software aufgrund eines thermischen Zustandsereignisses ausfällt, ist es der PSM-Watchdog-Timer, der dieses Problem erkennt und das System herunterfährt.

Tabellarischer Änderungsverlauf

Die Unterstützung der Funktion hängt von der Plattform und der Version ab, die Sie benutzen. Verwenden Sie Funktionen entdecken , um festzustellen, ob eine Funktion auf Ihrer Plattform unterstützt wird.

Loslassen
Beschreibung
13.3
Beginnend mit Junos OS Version 13.3 oder Version 14.2 für M320-Router können Sie Router der MX-Serie, PTX-Serie und T-Serie verwenden, um PFE-bezogene Fehlerstufen im Zusammenhang mit der Packet Forwarding Engine (PFE) auf FPCs und die Aktionen zu konfigurieren, die ausgeführt werden sollen, wenn ein bestimmter Schwellenwert erreicht wird.