Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

MXシリーズルーターのファブリック耐障害性

MXルーターは、ハードウェア障害シナリオにおけるパケットロスを低減するインテリジェントなメカニズムを提供します。MXシリーズルーターは、マルチレイヤー化された物理的、論理的、プロトコルレベルの耐障害性を幅広く備え、ネットワークとサービスの可用性を確保します

MX10008は、冗長性と耐障害性を提供します。電源システム、冷却システム、コントロールボードなど、主要なハードウェアコンポーネントはすべて完全に冗長化されています。

MX10004電源システムとルーティングコントロールボード(RCB)は、冗長性と耐障害性を提供します。

MX2020およびMX2010シャーシは、冗長性と耐障害性を提供します。電源システム、冷却システム、コントロールボード、スイッチファブリックなど、主要なハードウェアコンポーネントはすべて完全冗長です。

スイッチ ファブリック ボード(SFB)は、MX ルーター シャーシ内のサブシステムのデータ プレーンです。SFB は、拡張性と耐障害性に優れた「オールアクティブ」の集中型スイッチ ファブリックを構築し、MX2000 ルーターの各 MPC スロットに最大 4 Tbps の全二重スイッチング容量を提供します。

MX240、MX480、MX960シャーシは、冗長性と耐障害性を提供します。ハードウェアシステムは完全に冗長化されており、電源、ファントレイ、ルーティングエンジン、スイッチコントロールボードを備えています。

MX304ルーターは、冗長でプラガブルなルーティングエンジンを搭載し、最大3つのラインカードMIC(LMIC)をサポートします。

このトピックでは、ファブリックの耐障害性オプション、使用する障害検出方法、および是正措置について詳しく説明します。

ファブリック接続の復元

パケット転送エンジンの宛先は、以下の理由で到達できなくなることがあります。

  • コントロールボードは、CLIコマンドまたは物理ボタンが押された結果としてオフラインになります。

  • 高温のため、ファブリックコントロールボードはオフラインになっています。

  • ファブリック内の電圧またはポーリングされたI/Oエラー。

  • すべてのパケット転送エンジンは、ファブリックがオンラインの場合でも、リモートのパケット転送エンジンからすべてのプレーンで宛先エラーを受信します。

  • ファブリックがオンラインのときでも、宛先のタイムアウトが原因でファブリックを完全に失う。

到達できないパケット転送エンジンの宛先をシステムが検出すると、ファブリック接続の復元が試みられます。復元に失敗した場合、システムはインターフェイスをオフにして、隣接するルーターでローカル保護アクションまたはトラフィックの再ルーティングをトリガーします。

回復プロセスは、以下のフェーズで構成されます。

  1. ファブリック プレーンの再起動フェーズ: ファブリック プレーンを 1 つずつ再起動することによって復元が試みられます。ファブリックプレーンが正常に機能していて、1枚のラインカードのみからエラーが報告されている場合、このフェーズは開始されません。ファブリックプレーンがオフラインになる理由が接続損失であることを示すエラーメッセージが生成されます。このフェーズは、ファブリックプレーンエラーに対してのみ実行されます。

  2. ファブリックプレーンとラインカードの再起動フェーズ:システムは、システムの状態を再度調べる前に、最初のフェーズが完了するのを待ちます。最初のフェーズを実行しても接続が回復しない場合、または 10 分以内に問題が再び発生する場合は、ファブリック プレーンとライン カードの両方を再起動して接続の回復を試みます。[edit chassis fabric degraded]階層レベルでaction-fpc-restart-disableステートメントを設定して、回復を試みたときにラインカードの再起動を無効にすると、アラームがトリガーされ、接続損失が発生したことを示します。この第 2 フェーズでは、次の 3 つのステップを実行します。

    1. PFE で宛先エラーがあるすべてのライン カードはオフラインになります。

    2. ファブリックプレーンはオフラインにされ、スペアプレーンから始めて、1つずつオンラインに戻されます。

    3. オフラインにしたラインカードがオンラインに戻ります。

  3. ラインカードのオフラインフェーズ:システムは、システムの状態を再度調べる前に、第2フェーズが完了するのを待ちます。ライン カードをオフラインにしたり、以前の回復の試みが失敗したためインターフェイスをオフにしたりすることで、接続の損失を制限できます。ラインカードを再起動しても問題が解決しない場合、またはラインカードを再起動してから10分以内に問題が再発した場合、このフェーズが実行されます。

3つのフェーズはタイマーによって制御されます。これらのフェーズ中に、イベント(ラインカードやファブリックプレーンのオフライン/オンラインライニングなど)がタイムアウトすると、フェーズはそのイベントをスキップして次のイベントに進みます。タイマー制御のタイムアウト値は 10 分です。2枚以上のラインカードを持つシステムで最初のファブリックエラーが発生した場合、ファブリックプレーンが再起動されます。次の10分以内に別のファブリックエラーが発生すると、ファブリックプレーンとラインカードが再起動されます。ただし、2 番目のファブリック エラーがタイムアウト時間の 10 分外に発生した場合は、ファブリック プレーンのみを再起動する第 1 フェーズが実行されます。

すべての宛先タイムアウトが特定のライン カード(たとえば、1 つの送信元ライン カードまたは 1 つの宛先ライン カード)にトレースされる場合は、そのライン カードのみがオフラインおよびオンラインになります。ファブリックプレーンは、オフラインおよびオンラインにすることはありません。10分以内に別のファブリック障害が発生した場合、ラインカードはオフラインになります。

デフォルトでは、システムは、著しく劣化したファブリックを検出することで、接続損失時間を制限します。ユーザーの操作は必要ありません。

劣化したファブリックのラインカード

劣化したファブリックを持つラインカードをオフライン状態に移行するように設定できます。MX10008、MX10004、MX2020、MX2010、MX960、MX480、MX304、またはMX240ルーターでは、リンクエラーや不良ファブリックプレーンを設定できます。この設定は、ラインカードをオフラインにすることで再ルーティングが高速化される部分的な接続損失シナリオで特に役立ちます。ラインカードでこのオプションを設定するには、[edit chassis fpc slot-number]階層レベルでoffline-on-fabric-bandwidth-reductionステートメントを使用します。

単一宛先への接続損失のみ

特定の導入環境では、ラインカードが単一の宛先に対してのみ完全な接続喪失を示しますが、他の宛先に対しては正常に機能します。このようなケースが特定され、影響を受けたラインカードが復元されます。ラインカード0とラインカード1の間の接続において、アクティブプレーンが0、1、2、3、スペアプレーンが4、5、6、7であるというシナリオを考えてみましょう。ラインカード0のプレーン0とプレーン1で1つのリンク障害が発生し、ラインカード1のプレーン2と3で1つのリンク障害が発生すると、2つのラインカード間で完全な接続損失が発生します。ラインカード0とラインカード1の両方に段階的な回復モードが経て、ファブリックが修復されます。

アクティブコントロールボード上の冗長性ファブリックモード

アクティブコントロールボードを冗長性モードまたはファブリック帯域幅増加モードに設定できます。アクティブコントロールボードの冗長性モードを設定するには、[edit chassis fabric]階層レベルでredundancy-mode redundantステートメントを使用します。