ファブリックの耐障害性
ファブリックの耐障害性と劣化
ジュニパーのルーターとスイッチには、通常の運用で発生する障害やエラーに対処するための耐障害性が組み込まれています。トラフィックの損失を最小限に抑えるために、障害状態を修正するために、JUNOSソフトウェアによって直ちにアクションが取られます。手動による介入は必要ありません。ファブリックの劣化は、このようなエラー状態につながる理由の1つである可能性があります。以下のセクションでは、PFE がこれらの障害から回復力のある方法で回復する方法について説明します。
- PTXシリーズルーターでのパケット転送エンジンのエラーと回復
- ファブリックの復元力と劣化したファブリックの自動回復
- T640、T1600、またはTXマトリックスルーターでのパケット転送エンジンのエラーと回復
PTXシリーズルーターでのパケット転送エンジンのエラーと回復
以下の理由により、パケット転送エンジンの宛先がPTXシリーズルーターに到達できなくなることがあります。
-
ファブリックのスイッチ インターフェイス ボード(SIB)は、CLI コマンドの結果としてオフラインになります。
-
ファブリックSIBは、高温状態のために制御ボードによってオフラインになります。
-
SIB の電圧エラーまたはポーリングされた I/O エラーは、コントロール ボードによって検出されます。
-
接続されているすべてのプレーンで予期しないリンク トレーニング エラーが発生します。
-
2 つのパケット転送エンジンがファブリックに到達できますが、互いに到達することはできません。
-
リンクエラーは、2つのパケット転送エンジンがファブリックと接続できるが、共通のプレーンを介して接続できない場合に発生します。
Junos OS リリース 13.3 以降では、PTX シリーズ ルーターを使用して、パケット転送エンジン(PFE)関連のエラー レベルと、指定したしきい値に達したときに実行するアクションを設定できます。
エラーレベルが定義されていない場合、PTXシリーズルーターは回復プロセスの次のフェーズを開始します。
-
SIB再起動フェーズ:ルーターは、SIBを1つずつ再起動することで、問題の解決を試みます。SIB が正常に機能していて、1 枚のラインカードが問題に直面している場合、このフェーズは開始されません。
-
SIBおよびラインカードの再起動フェーズ:ルーターはSIBとラインカードの両方を再起動します。再起動後にファブリックへの高速リンクを開始できないラインカードがある場合、これらのラインカードのインターフェイスは作成されず、システムの問題が回避されるため、ライブトラフィックの損失とは関係ありません。
-
ラインカードオフラインフェーズ:以前の回復の試みが失敗したため、ラインカードとインターフェイスはオフになり、システムは問題とエラー状態を回避します。
ファブリックの復元力と劣化したファブリックの自動回復
Junos Evolvedリリース23.4R1以降、データ損失を制限するファブリック自動リカバリ機能が利用可能になりました。実行されるリカバリー・アクションには、FRU 再始動、リンク再始動などが含まれます。
以下の 3 フェーズ・ファブリック・リカバリー・アクションが FRU レベルで試行されます。
1. SIB 再起動を使用した FRU レベルの回復。
2. FPC再起動またはPFE再起動を使用したFRUレベルの回復
3. 回復不能なPFEIFD無効化またはPFEオフラインに対するアクション。
SIB 障害状態に対するファブリック・リカバリー・アクション: SIB の不在による到達可能性障害(ユーザー主導オフラインまたはシステム電源投入時に SIB が存在しない)の場合、ファブリックの耐障害性は回復を試みません。ファブリックの回復をサポートしないシステムでは、到達可能性障害に対してシャーシアラームが生成されます。
PTXシリーズルーター(PTX10004、PTX10008、およびPTX10016ルーター)でのPFEレベル回復アクション
PFE 再始動をサポートできるプラットフォームの場合、PFE 再始動がデフォルトのフェーズ 2 リカバリー・アクションとして追加されます。
- 到達可能性障害のあるPFEは、すべて1つのFPCに存在します。
- PFE(1つ以上のFPC内に)到達可能性障害があり、共通障害がないPFE。
フェーズ 2 リカバリーは、フェーズ 1 リカバリー後に到達可能性障害からリカバリーしていない PPFE で試行されます。
FPC内で自己到達性障害が発生したPFEの数がPFEの50%以上の場合、FPCは再起動されます。
次のCLIオプションを使用して、デフォルトのPFE再起動アクションを手動で設定します。
user@root> set chassis fabric event reachability-fault actions pfe-restart-disable
次の表は、FPCで障害が発生しているPFEの構成と数に基づく、フェーズ2の回復時のアクションを示しています。
回復の決定 | FPCに含まれるPFEの数 | PFE再起動をサポート | PFE 再起動無効 | FPC再起動の無効化 | アクション |
フェーズ 2 アクション | <= 50% | はい | いいえ | x | PFE 再起動 |
フェーズ 2 アクション | <= 50% | はい | はい | いいえ | FPC再起動 |
フェーズ 2 アクション | <= 50% | はい | はい | はい | PFE 再起動 |
フェーズ 2 アクション | >50% | はい | x | いいえ | FPC再起動 |
フェーズ 2 アクション | >50% | はい | はい | はい | PFE 再起動 |
フェーズ 2 アクション | >50% | はい | いいえ | はい | PFE 再起動 |
T640、T1600、またはTXマトリックスルーターでのパケット転送エンジンのエラーと回復
T640、T1600、またはTX Matrixルーターでは、以下の理由により、パケット転送エンジンの宛先が到達不能になる可能性があります。
-
ファブリックのスイッチ インターフェイス ボード(SIB)は、CLI コマンドまたは押された物理ボタンの結果としてオフラインになります。
-
ファブリック SIB は、高温条件のため、SPMB(スイッチ プロセッサ メザニン ボード)によってオフラインになります。
-
SIB の電圧エラーまたはポーリングされた I/O エラーは、SPMB によって検出されます。
-
すべてのパケット転送エンジンは、SIB がオンラインの場合でも、リモート パケット転送エンジンからすべてのプレーンで宛先エラーを受信します。
-
完全なファブリック損失は、SIB がオンラインの場合でも、宛先のタイムアウトが原因で発生します。
回復プロセスは、次のフェーズで構成されます。
-
ルーターはファブリックプレーンを1つずつ再起動します。ファブリックプレーンが正常に機能していて、1枚のラインカードに問題がある場合、このフェーズは開始されません。
-
ファブリックプレーンとラインカードの再起動フェーズ:ルーターはSIBとラインカードの両方を再起動します。再起動後にファブリックへの高速リンクを開始できないラインカードがある場合、これらのラインカードのインターフェイスは作成されず、システムの問題が回避されるため、ライブトラフィックの損失とは関係ありません。
-
ラインカードオフラインフェーズ:以前の回復の試みが失敗したため、ラインカードとインターフェイスはオフになり、システムは深刻な結果につながる問題やエラー状態を回避します。
Junos OS Release 14.2R6以降、高電圧や高温などの極端な条件が原因でSIBがオフラインになった場合、回復プロセスの一環として、ルーターはそのSIBのファブリックプレーンを再起動しません。
上記の段階的回復メカニズムは、これらの問題に関連する可能性のある他のエラーがない限り、網羅的です。
Junos OS リリース 14.2R6 以降、ファブリックの self-ping メカニズムとパケット転送エンジンの活性メカニズムを組み込むことで、単一シャーシ システムでのファブリックの劣化をより適切に管理できるようになりました。ファブリックのself-pingは、ファブリックのデータパスの問題を検出するメカニズムです。すべてのパケット転送エンジンは、ファブリックのself-pingメカニズムを使用して、パケットがファブリックパスを介して送信されたときに、自身宛てのパケットが到達していることを確認します。パケット転送エンジンの活性性とは、パケット転送エンジンがファブリックプレーン上で到達可能かどうかを検出するメカニズムです。到達可能であることを確認するために、パケット転送エンジンは、ファブリックプレーン上で自己宛先パケットを定期的に送信します。これら 2 つのメカニズムによってエラーが検出された場合、ファブリック マネージャーは ファブリック劣化アラーム を発生させ、ライン カードを再起動して回復を開始します。
MXシリーズルーターのファブリックの耐障害性
MXルーターは、ハードウェア障害シナリオにおけるパケットロスを低減するインテリジェントなメカニズムを提供します。MXシリーズルーターは、マルチレイヤーの物理的、論理的およびプロトコルレベルの耐障害性に関する幅広い側面により、ネットワークとサービスの可用性を確保します
MX10008 は冗長性と耐障害性を提供します。電源システム、冷却システム、コントロールボードを含むすべての主要なハードウェアコンポーネントは、完全に冗長化されています。
MX10004電源システムとルーティングコントロールボード(RCB)は、冗長性と耐障害性を提供します。
MX2020およびMX2010シャーシは、冗長性と耐障害性を提供します。電源システム、冷却システム、コントロールボード、スイッチファブリックなど、すべての主要なハードウェアコンポーネントは完全冗長化されています。
SFB(スイッチ ファブリック ボード)は、MX ルーター シャーシ内のサブシステムのデータ プレーンです。SFB は、拡張性と耐障害性に優れた「オールアクティブ」の一元的なスイッチ ファブリックで、MX2000 ルーターの各 MPC スロットに最大 4 Tbps の全二重スイッチング性能を提供します。
MX240、MX480、MX960シャーシは、冗長性と耐障害性を提供します。ハードウェアシステムは完全冗長構成で、電源、ファントレイ、ルーティングエンジン、スイッチコントロールボードを備えています。
MX304ルーターは、冗長なプラガブルルーティングエンジンを搭載し、最大3つのラインカードMIC(LMIC)をサポートします。
このトピックには、ファブリックの復元力オプション、使用される障害検出方法、および修正アクションについて説明する次のセクションが含まれています。
ファブリック接続の復元
パケット転送エンジンの宛先は、以下の理由で到達不能になる可能性があります。
-
CLIコマンドまたは物理ボタンが押された結果、コントロールボードがオフラインになります。
-
ファブリック制御ボードは、高温のためにオフラインになります。
-
ファブリック内の電圧エラーまたはポーリングされたI/Oエラー。
-
すべてのパケット転送エンジンは、ファブリックがオンラインの場合でも、リモートのパケット転送エンジンからすべてのプレーンで宛先エラーを受信します。
-
ファブリックがオンラインの場合でも、宛先のタイムアウトによって発生する完全なファブリック損失。
システムが到達不能なパケット転送エンジンの宛先を検出すると、ファブリック接続の復元が試行されます。復元に失敗した場合、システムはインターフェイスをオフにして、隣接するルーターでローカル保護アクションまたはトラフィックの再ルーティングをトリガーします。
回復プロセスは、次のフェーズで構成されます。
-
ファブリック プレーンの再起動フェーズ:ファブリック プレーンを 1 つずつ再起動することで復元が試行されます。ファブリックプレーンが正常に機能していて、エラーが1枚のラインカードからのみ報告される場合、このフェーズは開始されません。接続の損失がファブリックプレーンがオフラインになった理由であることを指定するエラーメッセージが生成されます。このフェーズは、ファブリック プレーン エラーに対してのみ実行されます。
-
ファブリックプレーンとラインカードの再起動フェーズ:システムは、最初のフェーズが完了するのを待ってから、システムの状態を再度調べます。最初のフェーズを実行しても接続が復元されない場合、または 10 分以内に問題が再び発生した場合は、ファブリック プレーンとライン カードの両方を再起動して接続の復元を試みます。
[edit chassis fabric degraded]
階層レベルでaction-fpc-restart-disable
ステートメントを設定して、リカバリの試行時にラインカードの再起動を無効にすると、接続の損失が発生したことを示すアラームがトリガーされます。この第 2 フェーズでは、次の 3 つの手順を実行します。-
PFE で宛先エラーがあるラインカードはすべてオフラインになります。
-
ファブリックプレーンはオフラインになり、スペアプレーンから始めて1つずつオンラインに戻されます。
-
オフラインになっていたラインカードはオンラインに戻ります。
-
-
ラインカードオフラインフェーズ:システムは、2番目のフェーズが完了するのを待ってから、システムの状態を再度調べます。ラインカードをオフラインにしたり、以前の復旧に失敗したためにインターフェイスをオフにすることで、接続の損失が制限されます。ラインカードを再起動しても問題が解決しない場合、またはラインカードの再起動後 10 分以内に問題が再発する場合は、このフェーズが実行されます。
3つのフェーズはタイマーによって制御されます。これらのフェーズで、イベント(ラインカードやファブリックプレーンのオフライン/オンライニングなど)がタイムアウトすると、フェーズはそのイベントをスキップして次のイベントに進みます。タイマー コントロールのタイムアウト値は 10 分です。2 つ以上のラインカードを搭載したシステムで最初のファブリックエラーが発生した場合、ファブリックプレーンが再起動されます。その後 10 分以内に別のファブリック エラーが発生すると、ファブリック プレーンとライン カードが再起動されます。ただし、2 番目のファブリック エラーが 10 分のタイムアウト期間外に発生した場合は、ファブリック プレーンのみを再起動する第 1 フェーズが実行されます。
すべての宛先タイムアウトが特定のラインカード(たとえば、1つの送信元ラインカードまたは1つの宛先ラインカード)にトレースされる場合、そのラインカードのみがオフラインおよびオンラインになります。ファブリックプレーンはオフラインにもオンラインにもなりません。10 分以内に別のファブリック障害が発生した場合、ラインカードはオフラインになります。
デフォルトでは、システムは著しく劣化したファブリックを検出して、接続損失時間を制限します。ユーザーの操作は必要ありません。
ファブリックが劣化したラインカード
劣化したファブリックを含むラインカードをオフライン状態に移行するように設定できます。MX10008、MX10004、MX2020、MX2010、MX960、MX480、MX304、またはMX240ルーターでは、リンクエラーまたは不良ファブリックプレーンを設定できます。この設定は、ラインカードをオフラインにすると再ルーティングが速くなるような、部分的な接続損失のシナリオで特に役立ちます。ラインカードでこのオプションを設定するには、[edit chassis fpc slot-number]
階層レベルで offline-on-fabric-bandwidth-reduction
ステートメントを使用します。詳細については、MX304ルーターでのファブリックプレーン管理、MX10K-LC9600およびSFB2でのファブリックプレーン管理(モデル番号:JNP10008-SF2)、MX10004デバイスでのファブリックプレーン管理、JNP10K-LC2101およびJNP10K-LC480でのファブリックプレーン管理、MX10004およびMX10008デバイスでのファブリックプレーン管理、およびAS MLCモジュラーキャリアカードでのファブリックプレーン管理を参照してください。
単一の宛先のみへの接続損失
特定の導入環境では、ラインカードは単一の宛先に対してのみ完全な接続損失を示しますが、他の宛先に対しては適切に機能します。このようなケースが特定され、影響を受けたラインカードが回復されます。ラインカード0とラインカード1の間の接続において、アクティブプレーンが0、1、2、3で、スペアプレーンが4、5、6、7であるサンプルシナリオを考えます。ラインカード 0 にプレーン 0 および 1 の単一リンク障害が発生し、ラインカード 1 にプレーン 2 および 3 の単一リンク障害がある場合、2 つのラインカード間で完全な接続損失が発生します。ラインカード0とラインカード1の両方が段階的な回復モードを経て、ファブリックの修復が行われます。
アクティブコントロールボードの冗長ファブリックモード
アクティブコントロールボードは、冗長モードまたはファブリック帯域幅増加モードに設定できます。アクティブコントロールボードの冗長モードを設定するには、[edit chassis fabric]
階層レベルでredundancy-mode redundant
ステートメントを使用します。
MXシリーズルーターのラインカードの検出と是正措置
MXシリーズルーター(MX10008、MX10004、MX2020、MX2010、MX2008、MX960、MX480、またはMX304、MX240など)でオフライン状態に移行するラインカードを設定できます。この機能を設定しても、システムには影響しません。この機能は、ラインカードの再起動やシステムの再起動なしで設定できます。
以下のシナリオは、ラインカードを無効化する機能を設定すると発生する可能性があります。
-
-
ファブリックエラーのためにラインカードがオフラインになり、ラインカードをオフライン状態に移行するこの機能が無効になっている場合、ラインカードは自動的にオンライン状態に移行します。
-
ファブリックエラーのためにラインカードがオフラインになり、ラインカードをオフライン状態に移行するこの機能が無効になっているか、他のラインカード用に設定されている場合、オフラインになったラインカードは自動的にオンライン状態に移行します。
-
この設定を構成したときにオフラインにされたすべてのラインカードは、
[edit chassis]
階層レベル以下の設定をコミットするとオンラインに戻ります。同様に、シャーシデーモンの再起動または グレースフルルーティングエンジンスイッチオーバー (GRES)動作によっても、ファブリックの劣化により無効化されたラインカードがオンライン状態に移行します。
ラインカードが必要なアクティブファブリックプレーン数より少ない状態で動作している場合。ラインカードが4つ未満のプレーンで動作している場合、ファブリックトラフィックは減少した帯域幅で動作します。
以下の条件により、ファブリックの動作帯域幅が低下する可能性があります。
-
ファブリック制御ボードが、意図しない突然の電源シャットダウンによりオフラインになる。
-
制御ボードのプレーンが自動的にオフラインになる原因となるASIC(特定用途向け集積回路)エラー。
-
ファブリックプレーンまたはコントロールボードを手動でオフライン状態にする。
-
コントロールボードの取り外し
-
任意のプレーンでのセルフping障害。
-
アクティブな飛行機のHSL2トレーニングの失敗。
-
スペア ファブリック プレーンに CRC エラーがあり、このスペア プレーンがオンラインになると、CRC エラーのあるリンクは無効になります。このメカニズムにより、一方の方向でファブリックが劣化し、もう一方の方向でヌル ルートが発生する可能性があります。
-
self-ping または HSL2 トレーニング障害が発生すると、ファブリック プレーンは特定のライン カードでは無効になり、他のライン カードではオンラインになります。この条件により、ルートが NULL になることもあります。
システムメンテナンス中にコントロールボードを取り外したり、ファブリックプレーンをオフライン状態に移動させたりする必要がある場合、帯域幅が低下したラインカードをオフライン状態にする機能を有効にする必要があります([edit chassis fpc slot-number]
階層レベルでoffline-on-fabric-bandwidth-reduction
ステートメントを使用します)。
ファブリックでヌル・ルートまたは動作帯域幅の低下が発生した場合、以下の修正アクションが実行されます。
-
スペアコントロールボードの有無にかかわらず、ルーティングエンジンでは、各ラインカードのself-ping状態が5秒間隔で監視されます。ファブリック・マネージャーがスペア・コントロール・ボードの有無を判別
-
スイッチファブリックは、MX10008、MX10004、MX2020、MX2010、MX2000デバイスのスイッチファブリックボード(SFB)でホストされています。
-
MX10008 ルーターには、8 個のラインカード用スロットがあり、最大 768 個の 100 ギガビット イーサネット ポート(100 x 4)、192 個の 40 ギガビット イーサネット ポート、192 個の 100 ギガビット イーサネット ポート、または 192 個の 400 ギガビット イーサネット ポートと、1 つのアセンブリに封入されたパケット転送エンジン(PFE)とイーサネット インターフェイスを組み合わせたライン カード スロット 0 〜 7 をサポートできます。MX10008 6 個の SFB(スイッチ ファブリック ボード)をサポート SFB には、JNP10008-SF と JNP10008-SF2 の 2 つのモデルがあります。取り付けられるSFBは、稼働中のシャーシで同じモデルタイプである必要があります。
詳細については、ファブリックプレーン管理オンMX10004およびMX10008デバイスを参照してください。
-
MX10004は、コンパクトな7-Uモジュラーシャーシ、ラインカードスロット0〜3枚のシリコンラインカード(2.4Tbps、480Gbps、および9.6Tbpsスループット)、および完全なハードウェア冗長性を備えています。SFB(スイッチ ファブリック ボード)は、MX10004のスイッチ ファブリックを作成します。各SFBには、ラインカードへのコネクタセットと、スイッチファブリックへのルーティングおよびコントロールボード(RCB)があります。3 つの SFB は、MX10004 ルーターに限定されたスイッチング機能を提供します。6個のSFBがフルスループットを提供します。各MX10004 SFB には 4 つのコネクタがあります。各コネクタはラインカードスロットと一致するため、バックプレーンは不要です。
ファブリック プレーン管理の詳細については、 MX10004 デバイスでのファブリック プレーン管理を参照してください。
-
MX10003ルーターには、モジュラ型ルーティングエンジンとPFEが含まれています。単一のPFEが、イングレスとエグレスの両方のパケット転送を実行します。ルーターには、2 つの専用ラインカードスロットがあります。ルーターは、1つのプライマリおよび2つの冗長ルーティングおよびコントロールボード(RCB)をサポートします。
-
MX2020およびMX2010デバイスは、8個のSFBをサポートします。MX2020には20個の専用ラインカードスロットがあります。MX2010ルーターには10個の専用ラインカードスロットがあります。 ホストサブシステムは、ルーティングエンジン(CBRE)を備えた2つのコントロールボードと、8つのSFB(スイッチファブリックボード)で構成されています。データ パケットは、SFB 上のファブリック ASIC を介して、MPC 間のバックプレーンを介して転送されます。
SFB(スイッチ ファブリック ボード)は、スロット当たりのファブリック帯域幅を提供します。最大8個のSFB、SFB2、または
SFB3は、MX2020またはMX2010ルーターにインストールできます。シャーシ内のすべてのスイッチ ファブリック ボードは同じタイプである必要があります。混合モードはサポートされていません。
-
3つのコントロールボードを含むIチップまたはIチップとTrioチップベースのラインカードを搭載したMX960ルーター。
-
2つのコントロールボードを含む、IチップまたはIチップとTrioチップベースのラインカードを搭載したMX240またはMX480ルーター。
-
Trioベースのラインカードのみを搭載したMX960、MX480、またはMX240ルーターは、スペアコントロールボードを含むとは見なされません。
このような 5 秒の間に、2 枚のラインカードが同じプレーンの障害を示している場合、スペアコントロールボードへのスイッチオーバーが発生します。この場合、エラーを報告したコントロールボードはオフラインになり、スペアコントロールボードはオンラインになります。
-
-
スペアのコントロールボードが利用可能で、ラインカードを無効化する機能を設定した場合、ルーティングエンジンで各ラインカードのself-ping状態が5秒間隔で監視されます。次の条件が発生する可能性があります。
-
任意の 5 秒間に、1 枚のライン カードのみがプレーンの障害を示している場合、ファブリック マネージャは次の間隔を待ちます。その後のインターバル中に、同じプレーンに対して障害を示すラインカードが他にない場合、制御ボードのスイッチオーバーが実行されます。
-
5 秒間に、複数のライン カードで複数の制御ボードの障害が示された場合、ファブリック マネージャーは次の間隔を待ちます。その後のインターバルで、同じ状態が続くと、スペア・コントロール・ボードが存在していても、すべての障害のあるライン・カードがオフラインになります。
-
5 秒間に、いずれかのライン カードが複数のコントロール ボード上の複数のプレーンで障害を示した場合、ファブリック マネージャは次の間隔だけ待機します。その後のインターバルで同じ状態が続くと、スペアのコントロールボードが存在していてもラインカードはオフラインになります。
-
-
スペアプレーンが利用できない場合、ラインカードはオフラインになり、1 つのプレーンまたは複数のプレーンの障害が表示されます。ラインカードがオフラインになるのは、以前に
[edit chassis fpc slot-number]
階層レベルでoffline-on-fabric-bandwidth-reduction
ステートメントを設定した場合のみです。
T4000ルーターのファブリック障害処理について
T4000ルーターは、ファブリック帯域幅がT1600ルーターの2倍の容量を持つスイッチインターフェイスボード(SIB)で構成されています。ファブリック障害管理機能は、T1600 ルーターの機能と似ています。このトピックでは、T4000ルーターのファブリック障害処理機能について説明します。
ファブリック障害管理機能では、ファブリックに接続されているすべての高速リンクとファブリック コア内の高速リンクのリンク障害やリンク エラーを監視します。
障害とその場所に基づいてアクションが実行されます。アクションには次のものが含まれます。
システムログファイルのリンクエラーを報告し、この情報をルーティングエンジンに送信する。
FPC(フレキシブル ポート コンセントレータ)または SIB でリンク障害を報告し、この情報をルーティング エンジンに送信します。
SIB を
Check
状態のマークを付ける。SIB を
Fault
状態に移行する。
T4000ルーターのSIBは、4:1の冗長性を備えたファブリックのコアを形成しています。アクティブなSIBが機能しなくなったり、無効化されたり、削除されたりすると、冗長SIBがアクティブになります。以下は、Junos OSによって監視されているファブリック障害の概要を示しています。
SIB が
Check
またはFault
として報告されるたびに、SNMP トラップが生成されます。show chassis alarms
- SIB がCheck
またはFault
状態であることを示します。show chassis sibs
- SIB がCheck
またはFault
状態であること、または SIB の初期化時に SIB がOffline
状態であることを示します(これは、SIB の電源が完全にオンにならない場合に発生します)。show chassis fabric fpcs
- FPC側でエラーのあるファブリックリンクがあるかどうかを示します。show chassis fabric sibs
- SIB側でエラーのあるファブリックリンクがあるかどうかを示します。ルーティング エンジンの
/var/log/messages
システム ログ メッセージ ファイルには、プレフィックスCHASSISD_FM_ERROR
のエラー メッセージが表示されます。SIB には
FAIL
LED が表示されます。
シャーシ内のファブリックプレーンによって、シャーシがT640ルーター、T1600ルーター、またはT4000ルーターのいずれであるかが判断されます。電源エントリーモジュール(PEM)、FPC、またはファントレイは、シャーシの個性を決定しません。古い PEM またはファン トレイが T4000 シャーシに存在する場合、アラームが発生します。ファブリックプレーンに基づいてルーターを識別できます。
存在するすべてのプレーンがF16ベースのSIBの場合、シャーシはT640シャーシになります。
存在するすべてのプレーンがSFベースのSIBである場合、シャーシはT1600シャーシになります。
存在するすべてのプレーンが XF ベースの SIB の場合、シャーシは T4000 シャーシです。
ファブリック プレーンの混在は、アップグレード時を除き、サポートされている設定ではないことに注意してください。再起動せずにシャーシのパーソナリティを変更するには、すべてのファブリック プレーンを変更し、 set chassis fabric upgrade-mode
CLI コマンドを発行してパーソナリティを確認します。 set chassis fabric upgrade-mode
CLI コマンドを発行しない場合、パーソナリティは次回のブートまで変わりません。
T4000ルーターでは、次の障害に遭遇します。
ボードレベルの障害-これらの障害は、初期化中または実行時に発生します。ボード初期化時の電源障害、高速リンク送信エラー、および実行時のポーリングI/Oエラーは、ボードレベルの障害の例です。
リンクレベルの障害 - これらの障害は、初期化中または実行時に発生します。初期化時のリンクトレーニング障害(FPCまたはSIBの初期化時にトレーニング対象のFPCとSIB間のデータプレーンリンクの障害)、SIBとパケット転送エンジン間のチャネルで検出されたエラー、実行時に検出された巡回冗長性検査(CRC)エラー、およびパケット転送エンジンの宛先エラーは、リンクレベル障害の一種です。
環境条件に基づく障害 - これらの障害は実行時に発生します。FPC または SIB を突然取り外すと、オペレーター・エラーが発生する可能性があります。SIBが高温になりすぎた場合、またはSIB電圧がしきい値を超えた場合、生成されるエラーは環境エラーに分類されます。
次のいずれかのオプションを実装して、障害を処理できます。
エラーをログに記録し、アラームを発生させます。
可能な場合は、予備の飛行機に切り替えます。
飛行機の部品数を減らして続行します。
使用可能な飛行機の数を減らして続行します。
ポーリングベースの障害処理を使用します。
高速リンクエラーを監視し、手動でリンクを適切なしきい値まで下げます。
ポーリングされたI/Oエラーとリンクエラーは500ミリ秒ごとに監視され、ボードの排気温度とボード電圧は10秒ごとに監視されます。
パケットトランスポートルーターのファブリック障害処理PTX5000理解
Junos OS Release 14.1以降、PTX5000パケットトランスポートルーターは、9つのSIB(スイッチインターフェイスボード)をサポートしています。各FPC2-PTX-P1A FPCは、1スロットあたり1Tbの容量をサポートするため、16テラビット/秒(Tbps)の全二重(8Tbpsのエニーツーエニー、ノンブロッキング、半二重)スイッチングのファブリック帯域幅が得られます。
ファブリック障害管理機能では、ファブリックに接続されているすべての高速リンクとファブリック コア内の高速リンクのリンク障害やリンク エラーを監視します。
PTX5000で発生する障害は、次のように大別できます。
ボード障害—初期化中または実行時にSIBまたはFPC(フレキシブルポートコンセントレータ)で発生する障害で、ルーターコンポーネントがSIBまたはFPCにアクセスするときに発生する問題や、ミッドプレーンの障害から発生する問題が含まれます。
リンク障害:初期化中または実行時にルーターの高レベルリンクで発生する障害。
環境条件による障害-過電圧または過熱が原因で発生する障害。オペレーターが SIB や FPC を誤って処理したために発生する障害など。
ルーターは、障害カテゴリと障害の場所に基づいてアクションを実行します。アクションには次のものが含まれます。
システムログファイルのリンクエラーを報告し、この情報をルーティングエンジンに送信する。
表1にリストされている操作コマンドの1つを実行した場合のリンクエラーの表示:
表1:動作モードコマンドのリスト 動作モードコマンド
形容
show chassis sibs
スイッチ インターフェイス ボード(SIB)のステータス情報を表示します。
show chassis fabric fpcs <slot number>
指定されたFPCスロットのファブリック状態を表示します。スロット番号を指定しない場合は、すべてのFPCのステータスが表示されます。
show chassis fabric sibs <slot number>
SIBとFPC間の電気スイッチファブリックリンクの状態を表示します。
show chassis fabric reachability <detail>
ファブリックの宛先到達可能性の現在の状態を表示します。
show chassis fabric unreachable-destinations
到達可能状態から到達不能状態に遷移した宛先のリストを表示します。
show pfe statistics error
パケット転送エンジンのエラー統計情報を表示します。
show chassis fabric topology <sib_slot>
入出力リンクのトポロジーを表示します。
show chassis fabric summary
すべてのファブリックプレーンの状態と経過稼働時間を表示します。
FPCレベルまたはSIBレベルでリンク障害を報告し、この情報をルーティングエンジンに送信します。
show chassis alarms
運用コマンドでリンクエラー情報を報告する。SIB を フォルト 状態に移行する。
次のセクションでは、PTX5000のファブリック障害処理機能について説明します。
SIBレベルの障害
以下のセクションでは、SIB で発生する障害の種類とその処理方法について簡単に概説します。
SIB で発生する障害のタイプ
ボード障害とリンク障害は、初期化中および実行時に SIB で発生します。一部の障害は、過電圧や過熱などの環境条件、またはオペレータがSIBを誤って取り扱った場合に発生します。
表 1 にリストされている動作モード コマンドを実行して、障害を検出します。
SIB の初期化および実行時に、以下の障害が発生する可能性があります。
SIB の電源投入の失敗、ASIC のリセット障害、スイッチ プロセッサ メザニン ボード(SPMB)の ASIC へのポーリング I/O アクセス障害、PIC 障害などのボード コンポーネントの障害、ルーター コンポーネントのアクセス障害などのボード障害。
リンク トレーニング中に発生する高レベルのリンク エラーなどのリンク障害。
環境条件またはオペレーターによるSIBの誤った取り扱いのために発生する障害。
SIBレベル障害の処理
次のリストは、初期化中、実行時に、環境条件、およびオペレーターによる SIB の誤った処理が原因で SIB で発生した障害を、ルーターがどのように処理するかを示しています。
初期化中に SIB のボード障害を処理するために、シャーシデーモン(chassisd)は SIB に 障害 状態のマークを付けます。SIB に障害のマークが付けられた後、この SIB に対する操作は行われません。
実行時に SIB のボード障害を処理するために、chassisd はシステムログファイルにエラーを記録し、アラーム表示エラータイプを発生させて、SIB を障害としてマークします。SIB に障害のマークが付けられた後、この SIB に対する操作は行われません。
実行時に SIB のリンク障害を処理するために、リンク トレーニング中にリンク エラーが発生すると、chassisd はエラーが発生したリンクに対応する FPC に通知し、影響を受ける SIB へのリンクを無効にします。その後、シャーシは、障害が発生したSIBリンクの使用を停止するように、ルーター内の他のすべてのFPCにエラーメッセージを送信し、リンクエラーアラームが生成されます。1つのSIBに対して複数のFPCがエラーを報告する場合、そのSIBはすべてのFPCで無効になり、パケット転送エンジンは影響を受けるSIBを介してトラフィックを送信しません。
実行時に SIB のリンク障害を処理するために、chassisd は SIB に障害のマークを付け、エラーの理由を指定すると、SIB は無効になります。
環境障害(過電圧または過熱)が発生した場合、SIBは直ちにオフラインになります。温度または電圧が上昇するとエラーが定期的にログに記録され、SIBが特定のしきい値電圧または温度を超えるとオフラインになることに注意してください。
SIB が突然削除または解除されると、影響を受けるすべてのパケット転送エンジンは、そのプレーンを使用してルーター内の他のパケット転送エンジンに到達するのを停止します。
FPCレベルの障害
以下のセクションでは、FPCで発生する障害の種類とその処理方法について簡単に概説します。
FPC で発生する障害のタイプ
ボード フォールトとリンク フォールトは、初期化中および実行時に FPC で発生します。一部の障害は、過電圧、過熱などの環境条件、またはオペレータがFPCを誤って取り扱った場合にも発生します。
表 1 に示す運用コマンドを実行して、障害を検出します。
FPC の初期化および実行時に、以下の障害が発生する可能性があります。
FPC の電源投入の失敗、ASIC のリセット フェーズからの復帰の失敗、ASIC への PMB ポーリング I/O アクセス障害、PIC 障害などのボード コンポーネントの障害、ルーター コンポーネントのアクセス障害などのボード障害。
リンク トレーニング中に発生する高レベルのリンク エラーなどのリンク障害。
環境条件またはオペレーターによるFPCの誤った取り扱いのために発生する障害。
FPCレベルの障害処理
次のリストは、初期化中、実行中、環境条件、およびオペレータによるFPCの誤った処理が原因でFPCで発生する障害を、ルーターがどのように処理するかを示しています。
初期化中にFPCのボード障害を処理するために、chassisdはFPCを 障害 状態としてマークします。SIB に障害のマークを付けると、この FPC では動作は行われません。
実行時にFPCのボード障害を処理するために、chassisdはシステムログファイルにエラーを記録し、アラーム表示エラータイプを発生させて、FPCを障害としてマークします。FPCに障害のマークが付けられた後、このFPCでは動作は行われません。
初期化中または実行時にFPCのオンボードリンクエラーを処理するために、FPCは停止され、影響を受けるすべてのパケット転送エンジンはそのプレーンの使用を停止して、ルーター内の他のパケット転送エンジンに到達します。
手記:ファブリックのリンク トレーニング プロセスがまだ完了していないため、初期化中にプレーンが停止することはありません。
実行時のオンボード リンク エラーは、現在のコンフィギュレーションに基づいて解決されます。FPCが再起動されるか、エラーがログに記録されてFPCが初期化を続行します。
過電圧または過熱などの環境障害が発生した場合、FPCは直ちにオフラインになります。温度または電圧が上昇するとエラーが定期的にログに記録され、FPCが特定のしきい値電圧または温度を超えるとオフラインになることに注意してください。
FPCが突然取り外されたり外れたりすると、他のすべてのパケット転送エンジンは、このFPC内のパケット転送エンジンへのトラフィックの送信を停止します。
拡張スイッチ ファブリック ボード(SFB2)のファブリック障害処理について
MX2000 シリーズ ルーターは、SFB(スイッチ ファブリック ボード)と拡張 SFB(SFB2)をサポートしていますが、両方を同時にサポートすることはできません。SFB と SFB2 は、それぞれ 3 つのファブリック プレーンをホストします。したがって、シャーシは合計24の飛行機をサポートします。Junos OSリリース15.1F6および16.1R1は、SFBとSFB2の両方で各プレーンのファブリック障害処理をサポートしています。以前のリリースでは、ファブリックの障害処理は、各プレーンではなく、各SFBでサポートされています。
表 2 に、プレーンごとと SFB ごとのファブリック障害処理の違いを示します。
SFB レベル(SFB) |
プレーンレベル(SFB および SFB2) |
---|---|
SFB 上のすべてのリンクの巡回冗長検査(CRC)エラーは、SFB に示されます。 |
SFB または SFB2 上のリンクの CRC エラーがプレーンに表示されます。 |
宛先エラーが発生した場合、ラインカードはSFB(3つのプレーンすべて)を分離します。 |
宛先エラーが発生した場合、ラインカードは対応するプレーンを分離します。他の飛行機は運航を続けています。 |
プレーン単位のファブリック障害処理には、次のような利点があります。
障害の特定、分離、修復に役立つ粒度が高まります。
アラームとログ メッセージは、SFB ごとではなくプレーンごとに障害情報を提供するため、デバッグが容易になります。
SFB に障害のあるプレーンが 1 つある場合、他の 2 つのプレーンは動作を継続できます。SFB 全体をオフラインにする必要はありません。
過渡エラーが発生した場合、修復中に、SFBのバウンスを分離する代わりに、単一のプレーンを分離することができます。
24 プレーンすべてのファブリック障害処理情報を表示するには、既存のファブリック コマンドで extended
オプションを使用します。
帯域幅低下の管理
特定のエラーが発生すると、パケットが通知なしにシステムによって破棄されます。他の接続されたシステムは、影響を受けるシステムにトラフィックを転送し続け、ネットワークのパフォーマンスに影響を与えます。ファブリックプレーンの劣化が理由の1つです。
デフォルトでは、ジュニパーネットワークスのルーターは、システムがパケット転送エンジンの問題を検出すると、このような状況から修復を開始しようとします。修復に失敗すると、システムはインターフェイスをオフにして、それ以上のエスカレーションを防ぎます。
Junos OSでは、[edit chassis fpc slot-numberfabric]
階層でbandwidth-degradation
設定ステートメントを使用して、ファブリックプレーンの劣化を自分に合った方法で検知し、対応することができます。このような状態が検出された後にルーターが実行する修復アクションを指定するようにルーターを設定できます。オプションのステートメントblackhole-action
を使用して、ファブリックが100%劣化した場合にラインカードがどのように対応するかを判断することもできます。このコマンドはオプションであり、デフォルトのファブリック強化手順よりも優先されます。
bandwidth-degradation
コマンドと offline-on-fabric-bandwidth-reduction
ステートメントは互いに排他的です。両方のコマンドが設定されている場合、コミット チェック中にエラーが発生します。
bandwidth-degradation
ステートメントは、パーセンテージとアクションで構成されます。percent-age
値の範囲は1〜99で、ラインカードからの応答をトリガーするのに必要なファブリック劣化の割合を表します。action
属性は、ファブリックの劣化が設定されたパーセンテージに達した場合にラインカードが実行する応答のタイプを決定します。
ステートメントは、ファブリック劣化の割合が100%に達したときにトリガーされる action
属性でのみ設定されます。
以下のアクションは、どちらの設定ステートメントにも適用できます。
log-only
: ファブリック劣化のしきい値に達すると、メッセージがシャーシ ファイルとメッセージ ファイルに記録されます。その他のアクションは実行されません。restart
:ファブリックプレーンが劣化しているラインカードは、しきい値に達すると再起動されます。offline
:ファブリックプレーンが劣化しているラインカードは、しきい値に達するとオフラインになります。ラインカードをオンラインに戻すには、手動による介入が必要です。これは、アクション属性が設定されていない場合のデフォルトアクションです。restart-then-offline
: ファブリック プレーンが劣化したライン カードは、しきい値に達すると再起動され、ファブリック プレーンの劣化が 10 分以内に再び検出されると、ライン カードはオフラインになります。ラインカードをオンラインに戻すには、手動による介入が必要です。
この機能は、Junos OSリリース15.1R1で利用可能です。
PTX10K-LC1202-36MRラインカードを使用したPTX10001-36MR、PTX10004、PTX10008、およびPTX100016でのファブリックの強化と回復
PTX10001-36MR、PTX10004、PTX10008、およびPTX100016ルーターは、ファブリックの強化をサポートしています。ファブリックの強化は、ファブリックのブラックホール化を検出し、自動回復プロセスを試してパケット転送エンジンをブラックホール状態から復元する回復力のある機能です。
ファブリックの強化はデフォルトで有効になっています。システムが到達不能なパケット転送エンジンの宛先を検出すると、この機能は自動ファブリック接続の回復を試みます。
復元に失敗した場合、システムはインターフェイスをオフにしてブラックホール化を制限し、パケット転送エンジンの到達不能な宛先を示すアラームをトリガーします。ただし、ユーザーは、インターフェイスをオフにする代わりに、[set chassis fabric event]
階層レベルで set chassis fabric event reachability-fault actions recovery-failure pfe-offline
ステートメントを使用して、パケット転送エンジンをオフラインで設定できます。
パケット転送エンジンの宛先は、以下の理由で到達不能になる可能性があります。
-
完全なセルフブラックホール:すべてのファブリックプレーンで完全な接続損失が発生します。
-
完全なピアブラックホール- 2つのパケット転送エンジンがファブリックに到達できますが、互いに到達することはできません。
[edit chassis fabric event reachability-fault]
階層レベルで ステートメントを使用することで、ルーターがファブリック帯域幅の低下を検出した場合degraded
ファブリックの回復をトリガーするようにルーターを設定できます。劣化ステートメントは、1 から 99 の範囲のパーセント値で構成されます。パーセント値は、ファブリック帯域幅低下のエラー閾値を表し、閾値に達するとルーターが回復を開始します。
劣化エラーの閾値が設定されている場合、ルーターは次の理由でファブリックの回復を試みることもできます。
-
自己劣化 - パケット転送エンジンの宛先における劣化したファブリックの状態。
-
ピア劣化 - 2 つのパケット転送エンジン間のファブリック状態の低下。
ファブリック・リカバリー・プロセスには、以下のフェーズの 1 つ以上が含まれます。
-
SIB再起動フェーズ:複数のラインカードにまたがるパケット転送エンジンの宛先にプレーンでファブリック接続障害が発生した場合、ルーターはSIBを再起動することで問題の解決を試みます。複数のSIBの再起動が必要な場合、ルーターはSIBを1つずつ再起動します。
-
FPC再起動フェーズ:ルーターは、以下のシナリオでFPCを再起動して、自動回復を試みます。
-
全体的または部分的なブラックホール状態を持つパケット転送エンジンの宛先はすべて、単一のFPC内にあります。
-
全体的または部分的なブラックホール状態を持つパケット転送エンジンの宛先が異なるFPC間で発生するが、どのパケット転送エンジンも共通の障害面を共有していない場合。
-
SIB リスタート フェーズの試行で、パケット転送エンジンを回復できませんでした。
FPCの再起動を無効にして、劣化ファブリック状態からのリカバリアクションを制限することができます。FPCの再起動を無効にするには、
[set chassis fabric event]
階層レベルでset chassis fabric event reachability-fault actions fpc-restart-disable
ステートメントを使用します。 -
-
パケット転送エンジンオフラインフェーズ:以前のリカバリフェーズの試行が失敗したか、設定でリカバリアクションが無効になっているため、ルーターはインターフェイスをオフにして、デフォルトでブラックホールを制限します。ただし、ユーザーは、インターフェイスをオフにする代わりに、
[set chassis fabric event]
階層レベルでset chassis fabric event reachability-fault actions recovery-failure pfe-offline
ステートメントを使用して、パケット転送エンジンをオフラインで設定できます。
ルーターにピアブラックホールまたはピア劣化状態のパケット転送エンジンのみがある場合、ルーターはプレーン上のファブリックリンクを再起動することで、リンクの自動修復による回復を試みます。
利点
-
自動リカバリープロセスを試み、トラフィック損失を最小限に抑えるために、劣化したファブリック状態からパケット転送エンジンをリカバリーします。
-
復旧に失敗した場合、障害情報を提供するアラームを発生させて、パケット転送エンジンの到達不能な宛先を示します。
ラインカードの再起動を無効にして、劣化したファブリック状態からの回復アクションを制限する
ラインカードの再起動を無効にして、劣化ファブリック状態からのリカバリアクションを制限することができます。T640 および T1600 ルーターでは、ファブリック プレーンのみが再起動されます。PTXシリーズルーターでは、スイッチインターフェイスボード(SIB)のみが再起動されます。ラインカードの再起動を無効にするには、[edit chassis fabric degraded]
階層レベルで action-fpc-restart-disable
ステートメントを使用します。
[edit chassis fabric] degraded
ラインカードの再起動が無効になっている場合、ルーターに到達できない宛先が存在する場合にアラームが発生し、ラインカードを手動で再起動する必要があります。
リカバリープロセス中に、ファブリックプレーン(T640およびT1600ルーター)またはSIB(PTXシリーズルーター)とラインカードの両方が再起動されるようにするには、[edit chassis fabric degraded]
階層レベルで action-fpc-restart-disable
ステートメントを設定しないでください。
ファブリック帯域幅が低下したFPCの無効化
ファブリック帯域幅が低下したFPCをオフラインにして、シャーシで長時間ヌルルートが発生するのを回避できます。帯域幅が低下したFPCを無効化するオプションを設定するには、[edit chassis fpc slot-number]
階層レベルで offline-on-fabric-bandwidth-reduction
ステートメントを使用します。
[edit chassis] fpc slot-number { offine-on-fabric-bandwidth-reduction; }
ファブリック マネージャは、現在アクティブなプレーンの数を定期的にチェックします。アクティブ プレーンの数が特定のルーターに必要なアクティブ プレーンの数よりも少ない場合、システムは修正アクションを実行する前に 10 秒間待機します。FPC で帯域幅の減少状態が続いていて、この機能が FPC に設定されている場合、システムは FPC をオフラインにします。
ファブリックOAMによるエラー処理
ファブリックの運用、管理、保守(OAM)は、ファブリックパスの障害を検出するのに役立ちます。ファブリックOAMは、PFEに新しいファブリックパスが立ち上がるたびに、ファブリックプレーンにトラフィックを送信する前に、ファブリックの接続を検証します。障害が検出されると、ソフトウェアは障害を報告し、そのファブリック プレーンをその PFE に使用しないようにします。この機能は、利用可能な各ファブリックプレーンで非常に低いパケット/秒(PPS)の自己宛先OAMトラフィックを送信し、エンドポイントでのトラフィックの損失を検出することで機能します(ファブリックセルフpingチェック)。
- Junos OS Evolvedリリース20.4R1では、ファブリックOAM機能がデフォルトで有効になっています。この機能を無効にするには、CLI コマンド
set chassis fabric oam detection-disable
を使用します。 - Junos OS Evolvedリリース20.4R2および21.1R1では、ファブリックOAM機能はデフォルトで無効になっています。
- Junos OS Evolvedリリース22.1R1では、ランタイムファブリックOAM機能がデフォルトで有効になっています。この機能を無効にするには、CLI コマンド
edit chassis fabric oam runtime-disable
を使用します。ランタイム ファブリック OAM 機能は、PTX10004、PTX10008、および PTX10016 ルーターでサポートされています。
ファブリック OAM チェックはブート時に実行されます。障害パスは無効になっています。システムは回復処置を行いません。ただし、SIB を再起動することで、影響を受けたファブリック プレーンの回復を試みることができます。回復手順は、障害の性質によって異なります。
ファブリックプレーンは、PFEとファブリックASIC間の独立した双方向パスを表します。ランタイム・ファブリックOAMは、ファブリックの接続性を定期的にチェックし、システム・ランタイム中のファブリック・プレーンの障害を検出して報告するのに役立ちます。ランタイム・ファブリックOAMは、各PFEのファブリックの到達可能性を検出します。
単一または複数のFPCで同じファブリックプレーンに障害が発生した場合、次のコマンドを使用して、障害が発生したプレーンを含むSIBを再起動します。
user@host> request chassis sib slot slot-number offline
user@host> request chassis sib slot slot-number online
複数のFPCでランダムファブリックプレーンに障害が発生した場合、その障害を特定のFPCまたはSIBに分離することはできません。ただし、影響を受けたプレーンを含む SIB を順次再起動することで、プレーンの回復を試みることができます。
ファブリック OAM 機能によってエラーが検出されるたびに、syslog が生成されます。次に例を示します。
Oct 29 23:02:46 router-dvi resiliencyd[12921]: Error: /fpc/0/fabspoked-pfe/0/cm/0/pfe/0/fabric_link_foam_fault (0x410009), scope: board, category: internal, severity: major, module: fab-pfe@0, type: fabric link foam fault
次の syslog メッセージは、ファブリック OAM 関連のエラーがクリアされたことを示しています。
Oct 29 23:25:14 router-dvi resiliencyd[12921]: Performing action clear-cmalarm for error /fpc/0/fabspoked-pfe/0/cm/0/pfe/0/fabric_link_foam_fault (0x410009) in module: fab-pfe@0 with scope: board category: internal level: major
また、CLI コマンド show system errors active detail
および show system alarms
を使用して、ファブリック OAM 関連のエラーを表示することもできます。
user@router> show system alarms
20 alarms currently active
Alarm time Class Description
2020-08-20 10:32:02 UTC Major FPC 0 Ideeprom read failure
2020-08-20 10:58:07 UTC Major FPC 0 Self_FOAM fault detected
[...Output truncated...]
user@router> show system alarms
14 alarms currently active
Alarm time Class Description
2022-02-15 23:45:28 PST Minor FPC 1 Volt Sensor Fail
2022-02-16 00:02:03 PST Major FPC 1 Self_Fabric OAM Runtime fault detected
2022-02-15 23:43:04 PST Minor FPC 1 Secure boot disabled or not enforced
2022-02-15 23:55:50 PST Minor FPC 3 Secure boot disabled or not enforced
[...Output truncated...]
次の出力は、単一ファブリック プレーン障害(パケット転送エンジン 0)とすべてのファブリック プレーン障害(パケット転送エンジン 1)の両方の詳細を示しています。
user@router> show system errors active detail
System Active Errors Detail Information
FPC 0
----------------------------------------------------------------
Error Name : fabric_down_condition_on_pfe
Identifier : /fpc/0/fabricHub/0/cm/0/fabrichub/1/fabric_down_condition_on_pfe
Description : fabric_down_condition_on_pfe
State : enabled
Scope : pfe
Category : functional
Level : major
Threshold : 1
Error limit : 0
Occur count : 3
Clear count : 2
Last occurred(ms ago) : 103158
System Active Errors Detail Information
FPC 0
----------------------------------------------------------------
Error Name : fabric_link_foam_fault
Identifier : /fpc/0/fabspoked-pfe/0/cm/0/pfe/0/fabric_link_foam_fault
Description : fabric link foam fault
State : enabled
Scope : board
Category : internal
Level : major
Threshold : 1
Error limit : 100
Occur count : 2
Clear count : 0
Last occurred(ms ago) : 113277
System Active Errors Detail Information
FPC 0
----------------------------------------------------------------
Error Name : fabric_link_foam_fault
Identifier : /fpc/0/fabspoked-pfe/0/cm/0/pfe/1/fabric_link_foam_fault
Description : fabric link foam fault
State : enabled
Scope : board
Category : internal
Level : major
Threshold : 1
Error limit : 100
Occur count : 12
Clear count : 0
Last occurred(ms ago) : 103267
System Active Errors Detail Information
RE 0
----------------------------------------------------------------
Error Name : fpga_min_supported_fw_ver_mismatch
Identifier : /re/0/hwdre/0/cm/0/fpga_fw_events/UBAM FPGA/fpga_min_supported_fw_ver_mismatch
Description : firmware_version_lower_than_minimum_expected
State : enabled
Scope : board
Category : functional
Level : minor
Threshold : 10
Error limit : 1
Occur count : 1
Clear count : 0
Last occurred(ms ago) : 68886367
FPC 1
----------------------------------------------------------------
Error Name : fabric_link_self_fabric_oam_runtime_fault
Identifier : /fpc/1/fabspoked-pfe/0/cm/0/pfe/0/fabric_link_self_fabric_oam_runtime_fault
Description : fabric link self fabric oam runtime fault
State : enabled
Scope : board
Category : internal
Level : major
Threshold : 1
Error limit : 36
Occur count : 1
Clear count : 0
Last occurred(ms ago) : 2022-02-16 00:02:03 PST (448108 ms ago) System Active Errors Detail Information
CLI コマンド show chassis fabric fpcs
を使用して、各ファブリック プレーンのファブリック OAM self-ping 状態を表示できます。
user@router> show chassis fabric fpcs
Fabric management FPC state:
FPC #0
PFE #0
SIB0_Asic0_Fcore0 (plane 0) Plane Disabled, Links ok Fabric OAM failed
SIB0_Asic0_Fcore0 (plane 1) Plane Enabled, Links ok Fabric OAM success
SIB0_Asic0_Fcore0 (plane 2) Plane Enabled, Links ok Fabric OAM success
SIB0_Asic0_Fcore0 (plane 3) Plane Enabled, Links ok Fabric OAM success
SIB0_Asic0_Fcore0 (plane 4) Plane Enabled, Links ok Fabric OAM success
SIB0_Asic0_Fcore0 (plane 5) Plane Enabled, Links ok Fabric OAM success
SIB1_Asic0_Fcore0 (plane 6) Plane Enabled, Links ok Fabric OAM success
SIB1_Asic0_Fcore0 (plane 7) Plane Enabled, Links ok Fabric OAM success
SIB1_Asic0_Fcore0 (plane 8) Plane Enabled, Links ok Fabric OAM success
SIB1_Asic0_Fcore0 (plane 9) Plane Enabled, Links ok Fabric OAM success
SIB1_Asic0_Fcore0 (plane 10) Plane Enabled, Links ok Fabric OAM success
SIB1_Asic0_Fcore0 (plane 11) Plane Enabled, Links ok Fabric OAM success
PFE #1
SIB0_Asic0_Fcore0 (plane 0) Plane Enabled, Links ok Fabric OAM success
SIB0_Asic0_Fcore0 (plane 1) Plane Enabled, Links ok Fabric OAM success
user@router> show chassis fabric fpcs Fabric management FPC state: FPC #1 PFE #0 SIB0_Asic0_Fcore0 (plane 0) Plane Enabled, Links ok Fabric OAM Runtime success SIB0_Asic0_Fcore0 (plane 1) Plane Disabled, Links ok Fabric OAM Runtime failed SIB0_Asic1_Fcore0 (plane 2) Plane Enabled, Links ok Fabric OAM Runtime success SIB0_Asic1_Fcore0 (plane 3) Plane Enabled, Links ok Fabric OAM Runtime success SIB0_Asic2_Fcore0 (plane 4) Plane Enabled, Links ok Fabric OAM Runtime success SIB0_Asic2_Fcore0 (plane 5) Plane Enabled, Links ok Fabric OAM Runtime success SIB1_Asic0_Fcore0 (plane 6) Plane Enabled, Links ok Fabric OAM Runtime success SIB1_Asic0_Fcore0 (plane 7) Plane Enabled, Links ok Fabric OAM Runtime success SIB1_Asic1_Fcore0 (plane 8) Plane Enabled, Links ok Fabric OAM Runtime success SIB1_Asic1_Fcore0 (plane 9) Plane Enabled, Links ok Fabric OAM Runtime success SIB1_Asic2_Fcore0 (plane 10) Plane Enabled, Links ok Fabric OAM Runtime success SIB1_Asic2_Fcore0 (plane 11) Plane Enabled, Links ok Fabric OAM Runtime success SIB2_Asic0_Fcore0 (plane 12) Plane Enabled, Links ok Fabric OAM Runtime success SIB2_Asic0_Fcore0 (plane 13) Plane Enabled, Links ok Fabric OAM Runtime success SIB2_Asic1_Fcore0 (plane 14) Plane Enabled, Links ok Fabric OAM Runtime success SIB2_Asic1_Fcore0 (plane 15) Plane Enabled, Links ok Fabric OAM Runtime success
show chassis fabric fpcs
コマンドは、ファブリック OAM 機能が無効になっている場合、次の出力を表示します。
user@router> show chassis fabric fpcs
Fabric management FPC state:
FPC #0
PFE #0
SIB0_Asic0_Fcore0 (plane 0) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 1) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 2) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 3) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 4) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 5) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 6) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 7) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 8) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 9) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 10) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 11) Plane Enabled, Links ok
PFE #1
SIB0_Asic0_Fcore0 (plane 0) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 1) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 2) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 3) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 4) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 5) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 6) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 7) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 8) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 9) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 10) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 11) Plane Enabled, Links ok
PFE #2
SIB0_Asic0_Fcore0 (plane 0) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 1) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 2) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 3) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 4) Plane Enabled, Links ok
SIB0_Asic0_Fcore0 (plane 5) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 6) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 7) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 8) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 9) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 10) Plane Enabled, Links ok
SIB1_Asic0_Fcore0 (plane 11) Plane Enabled, Links ok
PFE #3
変更履歴テーブル
機能のサポートは、使用しているプラットフォームとリリースによって決まります。 機能エクスプローラー を使用して、機能がプラットフォームでサポートされているかどうかを判断します。