ファブリックの耐障害性と劣化
ジュニパーのルーターとスイッチには、通常の運用時に発生する障害やエラーに対処するための耐障害性が組み込まれています。Junosソフトウェアが即座にアクションを起こし、障害状態を修復してトラフィックの損失を最小限に抑えます。手動による介入は必要ありません。ファブリックの劣化は、このようなエラー状態につながる理由の1つである可能性があります。以下のセクションでは、PFE がこれらの障害から耐障害性を持って回復する方法について説明します。
PTXシリーズルーターでのパケット転送エンジンのエラーと回復
パケット転送エンジンの宛先は、以下の理由により、PTXシリーズルーターで到達不能になることがあります。
-
ファブリック スイッチ インターフェイス ボード(SIB)は、CLI コマンドの結果としてオフラインになっています。
-
ファブリックSIBは、高温状態のため、コントロールボードによってオフラインになっています。
-
SIBの電圧またはポーリングされたI/Oエラーは、コントロールボードによって検出されます。
-
予期しないリンク学習エラーは、接続されているすべてのプレーンで発生します。
-
2つのパケット転送エンジンはファブリックに到達できますが、互いに到達することはできません。
-
リンク エラーは、2 つのパケット転送エンジンがファブリックに接続しているが、共通のプレーンを経由していない場合に発生します。
Junos OS リリース 13.3 以降では、PTXシリーズ ルーターを使用して、パケット転送エンジン(PFE)関連のエラー レベルと、指定したしきい値に達した場合に実行するアクションを設定できます。
エラーレベルが定義されていない場合、PTXシリーズルーターは回復プロセスの次のフェーズを開始します。
-
SIB 再起動フェーズ:ルーターは、SIB を 1 つずつ再起動することで、問題の解決を試みます。SIB が正常に機能していて、1 枚のラインカードに問題がある場合、このフェーズは開始されません。
-
SIBおよびラインカード再起動フェーズ:ルーターはSIBとラインカードの両方を再起動します。再起動後にファブリックへの高速リンクを開始できないラインカードがある場合、これらのラインカード用のインターフェイスが作成されないため、ライブトラフィックの損失とは関係がなく、システムの問題を防ぐことができます。
-
ラインカードオフラインフェーズ:以前の回復の試みが失敗したため、ラインカードとインターフェイスはオフになり、システムは問題とエラー状態を回避します。
ファブリックの耐障害性と劣化したファブリックの自動リカバリー
Junos Evolvedリリース23.4R1以降、データ損失を制限するためにファブリックの自動リカバリー機能が利用可能です。実行されるリカバリー・アクションには、FRU の再起動、リンクの再起動などがあります。
次の 3 フェーズのファブリック回復アクションが FRU レベルで試行されます。
1. SIB の再起動による FRU レベルの回復。
2. FPC再起動またはPFE再起動を使用したFRUレベルの回復。
3. 回復不能なPFE、IFD無効化、またはPFEオフラインに対するアクション。
SIB 障害状態に対するファブリック回復アクション: SIBの不在(ユーザードリブンオフラインまたはシステム電源投入時にSIBが存在しない)による到達可能性障害の場合、ファブリックの耐障害性は回復を試みません。ファブリックの回復をサポートしていないシステムでは、到達可能性障害が発生するとシャーシアラームが生成されます。
PTXシリーズルーター(PTX10004、PTX10008、PTX10016ルーター)でのPFEレベル回復アクション
PFE 再起動をサポートできるプラットフォームの場合、PFE 再起動がデフォルトのフェーズ 2 リカバリー・アクションとして追加されます。
- 到達可能性障害のあるPFEは、すべて1つのFPCに存在します。
- (1つ以上のFPCで)到達可能性障害があり、共通の障害がないPFE。
フェーズ 2 の回復は、フェーズ 1 の回復後に到達可能性障害から回復していない PPFE で試行されます。
FPC内で自己到達性障害を持つPFEの数がPFEの50%以上になると、FPCが再起動されます。
次のCLIオプションを使用して、デフォルトのPFE再起動アクションを手動で設定します。
user@root> set chassis fabric event reachability-fault actions pfe-restart-disable
次の表は、FPCで障害が発生しているPFEの設定と数に基づくフェーズ2リカバリのアクションを示しています。
| 回復の決定 | FPC 内の関係する PFE の数 | PFE再起動をサポート | PFE再起動の無効化 | FPC再起動の無効化 | アクション |
| フェーズ 2 アクション | <= 50% | はい | いいえ | x | PFE再起動 |
| フェーズ 2 アクション | <= 50% | はい | はい | いいえ | FPC再起動 |
| フェーズ 2 アクション | <= 50% | はい | はい | はい | PFE再起動 |
| フェーズ 2 アクション | >50% | はい | x | いいえ | FPC再起動 |
| フェーズ 2 アクション | >50% | はい | はい | はい | PFE再起動 |
| フェーズ 2 アクション | >50% | はい | いいえ | はい | PFE再起動 |
T640、T1600、TX Matrixルーターでのパケット転送エンジンのエラーと回復
パケット転送エンジンの宛先は、以下の理由により、T640、T1600、または TX Matrix ルーターで到達できなくなることがあります。
-
ファブリック スイッチ インターフェイス ボード(SIB)は、CLI コマンドまたは物理ボタンが押された結果、オフラインになっています。
-
ファブリック SIB は、高温状態のため、スイッチ プロセッサ メザニン ボード(SPMB)によってオフラインになっています。
-
SIB の電圧またはポーリングされた I/O エラーは、SPMB によって検出されます。
-
すべてのパケット転送エンジンは、SIBがオンラインの場合でも、リモートパケット転送エンジンからすべてのプレーンで宛先エラーを受信します。
-
完全なファブリック損失は、SIBがオンラインの場合でも、宛先タイムアウトによって発生します。
回復プロセスは、次のフェーズで構成されます。
-
ルータはファブリックプレーンを1つずつ再起動します。ファブリックプレーンが正常に機能していて、単一のラインカードに問題がある場合、このフェーズは開始されません。
-
ファブリックプレーンとラインカード再起動フェーズ:ルーターは、SIBとラインカードの両方を再起動します。再起動後にファブリックへの高速リンクを開始できないラインカードがある場合、これらのラインカード用のインターフェイスが作成されないため、ライブトラフィックの損失とは関係がなく、システムの問題を防ぐことができます。
-
ラインカードのオフラインフェーズ:以前の回復の試みが失敗したため、ラインカードとインターフェイスはオフになり、システムは深刻な結果につながる問題とエラー状態を回避します。
Junos OS リリース 14.2R6 以降、高電圧や高温などの極端な条件が原因で SIB がオフラインになった場合、回復プロセスの一環として、ルーターはその SIB のファブリック プレーンを再起動しません。
上記の段階的な復旧メカニズムは、これらの問題に関連する可能性のある他のエラーがない限り、網羅的です。
Junos OS リリース 14.2R6 以降、ファブリックの self-ping と パケット転送エンジンの活性メカニズムを組み込むことで、シングルシャーシ システムでのファブリック劣化をより適切に管理できるようになりました。ファブリックの self-ping は、ファブリックのデータパスの問題を検出するメカニズムです。ファブリックのself-pingメカニズムを使用して、すべてのパケット転送エンジンは、パケットがファブリックパスを介して送信されたときに、それ自体を宛先とするパケットが自分に到達していることを確認します。パケット転送エンジン liveness は、ファブリック プレーン上でパケット転送エンジン到達可能かどうかを検出するメカニズムです。到達可能であることを確認するために、パケット転送エンジンはファブリックプレーン上で定期的に自己宛てパケットを送信します。これら 2 つのメカニズムによってエラーが検出された場合、ファブリック マネージャは ファブリック劣化アラーム を発生させ、ラインカードを再起動して回復を開始します。
変更履歴
サポートされる機能は、使用しているプラットフォームとリリースによって決まります。特定の機能がお使いのプラットフォームでサポートされているかどうかを確認するには、 Feature Explorer を使用します。