Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

エラーの管理

FPC のエラーレベルとアクションの設定

M320ルーターのJunos OSリリース13.3またはリリース14.2以降、MXシリーズ、PTXシリーズ、Tシリーズルーターを使用して、FPCのパケット転送エンジン(PFE)関連のエラーレベルと、指定したしきい値に達したときに実行するアクションを設定できます。Junos OS Release 13.2以前では、パケット転送エンジンのエラーによりFPCが無効になることがありました。 error コマンドを使用すると、パケット転送エンジンのエラーを切り分けることができ、フィールド交換の必要性を減らすことができます。 error コマンドを使用すると、重大度に従ってエラーを分類し、重大度ごとに自動リカバリー・アクションを設定し、指定したしきい値に達したときに実行するアクションを構成できます。このコマンドは、 [edit chassis fpc slot-number] 階層および [edit chassis] 階層で使用できます。

FPCのパケット転送エンジンのエラーレベルとアクションを設定するには:

  • (オプション)致命的エラーレベルのしきい値とアクションを設定します。致命的なエラーは、モジュール間でかなりの量のトラフィックをブロックするエラーです。

    エラーの重大度レベルが致命的である場合、エラーの総数がしきい値に達したときにアクションが実行されます。しきい値を超えた後、エラーが発生するたびにアクションが実行されます。

  • (オプション)主要なエラーレベルのしきい値とアクションを設定します。重大なエラーとは、パケット トラフィックの損失が続くが、他のモジュールには影響しないエラーのことです。

    エラーの重大度レベルがメジャーの場合、エラーの総数がしきい値に達したときにアクションが実行されます。しきい値を超えた後、エラーが発生するたびにアクションが実行されます。

  • (オプション)マイナー エラー レベルのしきい値とアクションを構成します。軽微なエラーとは、1 つのパケットが失われるが、完全に回復可能なエラーのことです。

    重大度レベルがマイナーの場合、アクションはエラーの総数がしきい値に達したときに 1 回だけ実行されます

Junos OS リリース 18.1R3 以降、MX シリーズ ルーターは、エラー範囲とエラー カテゴリ レベルでのエラーしきい値とアクションの設定をサポートしています。コマンド set chassis fpc fpc-slot error scope error-scope category category (fatal | major | minor) threshold error-threshold action (alarm | disable-pfe | get-state | offline | log | reset | trap | online-pfe | reset-pfe) を使用して、FPCレベルで特定のエラー範囲とカテゴリのしきい値とアクションを設定します。これらの機能は、シャーシ レベル( [edit chassis] 階層)で設定することもできます。ただし、 [edit chassis fpc] 階層で設定されたしきい値とアクションは、 [edit chassis] 階層での同じ設定よりも優先されます。

コマンド show chassis fpc errors を使用して、エラーのスコープおよびカテゴリ レベルでエラー情報を表示できます。

Junos OS Evolvedの場合、以下の show コマンドを使用してエラー情報を表示できます。

  • show system errors count- システム全体のエラーとその数を表示します。

  • show system errors active- システム内の現在のアクティブなエラーを表示します。

  • show system errors active fpc <slot number> - 指定された FPC のアクティブ エラーを表示します。

  • show system errors fru detail- 詳細な FRU 固有のエラーを表示します。

  • show system errors fru detail fpc <slot number>- FRU に基づいて検出されたエラーに関する情報を表示します。

特定のエラーしきい値に対してアクション log を設定した場合、エラー数が設定されたしきい値を超えると、システムがイベントをログに記録します。次の syslog メッセージの例は、エラーしきい値の違反とその結果としてのアクションが実行されたことを示しています。

offline, reset, disable-pfe, offline-pfeアクションとreset-pfe アクションは、設定に関して相互に排他的です。offline-pfeまたはreset-pfe が設定されている場合、指定したPFEは自動的に無効になります。

手記:デフォルトのFPCメジャーアラームアクションがMPC6Eに追加されました。オプション disable-pfe は、Junos 17.4 以降のバージョンで使用できます。

次の表に、PFE エラー マッピング アクションとシステム応答の詳細を示します。

表 1: PFE エラー マッピングのアクションと応答
アクション 応答
disable-pfe すべての PFE インターフェイス、アラーム、ログをディセーブルにします。
offline FPCをオフラインにし、アラームとログを無効にします。
reset FPCをオフラインにしてオンラインにリセットし、アラームとログを有効にします。
reset-pfe PFEの電源をオフにしてアラームとログを無効にしてから、PFEの電源をオンにしてアラームとログを有効にします。
offline-pfe PFEの電源をオフにし、アラームとログを無効にします。

例:T シリーズ コア ルーターでの FPC エラー検出と自己修復の設定

この例では、Type 5 FPCを搭載したジュニパーネットワークスTシリーズコアルーターでエラー検出と自己修復を設定する方法を示します。

必要条件

この例では、以下のハードウェアとソフトウェアのコンポーネントを使用しています。

  • タイプ5 FPC搭載ジュニパーネットワークスT4000コアルーター。

  • Junos OS リリース 13.3 以降。

続行する前に、必要な接続が完了し、インターフェイスが機能していることを確認してください。

概要

FPCのエラー検出と自己修復では、特定の重大度のエラー数がユーザーが設定したしきい値を超えた場合に、各FPCで実行される一連のアクションを設定します。エラーの重大度は、致命的、重大、および軽微に分類されます。回復アクションには、アラームの発生、ログ エントリの生成、FPC の現在の状態の取得、FPC の再起動、FPC のオフライン化、FPC のリセットが含まれます。特定のFPCおよびエラーの重大度に対して、エラーしきい値を許容範囲内の任意の値に設定し、そのしきい値をアクションにマッピングできます。この例では、ジュニパーネットワークス T4000 コア ルーターの FPC 0 でこれらのエラーを設定します。

構成

エラー検出と自己修復を設定するには、エラーの重大度、各エラーの重大度に対応するしきい値、およびしきい値を超えたときに実行するアクションを設定する必要があります。

CLIクイック構成

この例をすばやく設定するには、以下のコマンドをコピーしてテキストファイルに貼り付け、改行を削除し、ネットワーク構成に合わせて必要な詳細を変更した後、[editinterfaces]階層レベルのCLIにコマンドをコピー&ペーストしてください。

エラー検出と自己修復の設定

手順

次の例では、設定階層のいくつかのレベルに移動する必要があります。CLI のナビゲーションについては、 設定モードでのCLIエディタの使用 および CLIユーザーガイドを参照してください。

  • 致命的なエラーに対するしきい値とそれに関連するアクションを設定します。

    1. エラーの重大度を致命的に設定します。

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal

    2. 致命的なエラーのしきい値を設定します。

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal threshold 1

    3. 致命的なエラーに関連するアクションを設定します。

      [edit interfaces]

      user@host# set chassis fpc 0 error fatal threshold 1 action reset

  • 重大なエラーに対するしきい値と関連するアクションを設定します。

    1. エラーの重大度をメジャーに設定します。

      [edit interfaces]

      user@host# set chassis fpc 0 error major

    2. 重大なエラーのしきい値を設定します。

      [edit interfaces]

      user@host# set chassis fpc 0 error major threshold 1

    3. 重大エラーに関連するアクションを設定します。

      [edit interfaces]

      user@host# set chassis fpc 0 error major threshold 1 action alarm

  • 軽微なエラーに対するしきい値と関連するアクションを設定します。

    1. エラーの重大度をマイナーに設定します。

      [edit interfaces]

      [edit interfaces]

      user@host# set chassis fpc 0 error minor

    2. 軽微なエラーのしきい値を設定します。

      [edit interfaces]

      user@host# set chassis fpc 0 error minor threshold 10

    3. 軽微なエラーに関連するアクションを設定します。

      [edit interfaces]

      user@host# set chassis fpc 0 error minor threshold 10 action log

業績

次に、致命的重大度レベルを設定した結果を示します。

デバイスの設定が完了したら、設定モードから commit を入力します。

検証

設定が成功し、ルーターに正しいアクションが設定されていることを確認するには、 show chassis fpc errors コマンドを使用します。

FPCエラーの致命的な重大度に関連する設定済みアクションの検証

目的

しきい値と関連するアクションが致命的なエラーに対して設定されていることを確認します。

アクション
意味

サンプル出力ではFatalFPC 0でのエラー0エラーOccurred(以前の発生なし)、エラー Cleared(以前の発生なし)0Threshold値が 1 に設定され、Action-TakenRESET に設定されているエラー示されています。

FPC エラーの管理

PTXシリーズルーターでは、FPCエラーを無効にしたり、error-idレベルでエラーの重大度を変更したりできます。この機能をサポートするPTXプラットフォームの詳細については、 FPC自己修復を参照してください

FPC エラーを一意に識別する error-id は、統一リソース識別子 (URI) 形式で表され、モジュール識別子とエラー識別子で構成されます。エラーが発生した場合は、システムログメッセージでerror-idを確認できます。

エラーの重大度の変更

新しいエラー重大度を設定することはできませんが、エラーの既存の重大度を変更することはできます。たとえば、(error-id で識別される) 特定のエラーを致命的として扱いたくない場合は、必要に応じてその重大度をメジャーまたはマイナーに変更できます。

手記:

グループ (カテゴリなど) レベルでエラーの重大度を変更することはできません。

エラーの重大度を変更するには、次のコマンドを使用します。

次の例を参照してください。

上記の例では、FPC 3 で “/cpu/0/memory/0/memory-uncorrected-error” エラー ID の重大度を minor に変更しました。

エラーの無効化

エラーの報告を停止するようにシステムを構成するには、error-id を特定して無効にします。error-id は、システム ログ メッセージで確認できます。エラーを無効にするには、次のコマンドを使用します。

次の例を参照してください。

上記の例では、FPC 3 でエラー “/cpu/0/memory/0/memory-uncorrected-error” を無効にしています。

パケット転送エンジンの電源オフ

実行中のシステムでパケット転送エンジンの電源をオンまたはオフにしたり、FPCがオンラインになったときにパケット転送エンジンの電源をオフのままにすることができます。この機能が使用されるシナリオをいくつか次に示します。

  • パケット転送エンジンASICに障害が発生した場合

  • 導入時にシステムの全容量が必要ない場合に備えて、電力を節約するため。

パケット転送エンジンの電源をオフにするには、以下のステップを使用します。

パケット転送エンジンの電源をオンにするには、次の手順に従います。

手記:

設定をコミットするには、この設定をASIC内の両方のパケット転送エンジンに適用する必要があります。

手記:

MPC10E-15C-MRATEを搭載したMXシリーズルーターでは、パケット転送エンジン2のみ電源オフまたは電源オンができます。パケット転送エンジン 0 および 1 は、このコマンドをサポートしていません。MPC10E-15C-MRATEでは、パケット転送エンジン2を動作させるには、パケット転送エンジン0および1が機能している必要があります。コマンド show chassis fpc fpc-lot detail を使用して、MPC10E-15C-MRATE内の個々のパケット転送エンジンのパケット転送エンジンの電源ON/OFFステータスと帯域幅を表示できます。

show chassis fpc fpc-slot detail コマンドを使用して、パケット転送エンジンの電源オン/オフ設定ステータスを表示できます。以下の例を参照してください。

サニティ・ポーリングの構成

特定の FPC、FEB、または CFEB に対して sanity-poll ステートメントを設定して、その FPC、FEB、または CFEB の定期的なサニティー チェックを開始できます。定期的なサニティ チェックには、"レジスタのサニティの問題"、"高温"、"ハードウェア障害" などのエラー状態のチェックが含まれます。 sanity-poll ステートメントを設定しない場合、サニティ ポーリングは無効になります。

手記:

現在、定期的なサニティ チェックはルーティング チップ レジスタでのみ実行されます。

サニティー・ポーリングは、FPC、FEB、またはCFEBのエラー状態を定期的にチェックし、エラーが発生した場合には適切なアクションを実行します。

  • T Series ルーターおよび M320 ルーターで FPC のサニティ ポーリングを設定するには、[edit chassis fpc slot-number] 階層レベルで sanity-poll ステートメントとそのサブステートメントを含めます。

  • M120ルーターでFEBのサニティポーリングを設定するには、[edit chassis feb slot-number]階層レベルでsanity-pollステートメントとそのサブステートメントを含めます。

  • M7i および M10 ルーターで CFEB のサニティー ポーリングを設定するには、[edit chassis cfeb slot-number] 階層レベルで sanity-poll ステートメントとそのサブステートメントを含めます。

手記:

TX Matrix または TX Matrix Plus ルーターでは、[edit chassis lcc number fpc number] 階層レベルで sanity-poll ステートメントを設定できます。

sanity-pollステートメントは、以下のサブステートメントで構成されています。

  • retry-count ステートメントは、特定のエラー状態の発生後に実行される再チェックの回数を指定します。すべての定期チェックにエラーが存在する場合、正常性ポーリングはエラーを報告し、適切なアクション(on-error ステートメントのオプションとして説明)の実行に進みます。

    たとえば、定期的なサニティー チェックで FPC、FEB、または CFEB でエラーが検出され、 retry count number を 15 に設定した場合、サニティー ポーリングはエラーをすぐに報告しません。サニティ・ポーリングは、同じエラー状態について15回チェックします。15 回の再チェックすべてでエラーが続く場合は、エラーを報告し、適切なアクションを実行します。

    retry-count ステートメントを設定しない場合、デフォルトでは、sanity-poll ステートメントはエラー状態を報告する前に、検出されたエラーを 10 回再チェックします。

  • 正常性ポーリングがエラー状態を検出すると、 on-error ステートメントは適切なアクションを実行してエラーを排除します。

    次のアクションは、すべての種類のエラー条件に共通です。

    • シャーシアラームを生成するには、 raise-alarm ステートメントを設定します。シャーシアラームは、シャーシの前面パネルに表示されます。

    • コア ファイルの生成後に FPC、FEB、または CFEB を再起動するには、 power cycle ステートメントを設定します。このステートメントは、リブート後に解消される一時的なソフトウェアエラーに有効です。

    • FPC、FEB、またはCFEBを停止するには、 power off ステートメントを設定します。このステートメントは、永続的なハードウェア障害が発生した場合に役立ちます。

      注意:

      power off ステートメントは、FPC を停止します。サービス停止を回避するため、別のFPC、FEB、またはCFEBを経由するバックアップ・パスを確保してください。

      手記:

      power cycle ステートメントと power off ステートメントは互いに排他的です。 エラーに対するpower cycleアクションまたはpower offアクションのいずれかを設定できます。

    • コア ファイルをトリガーするには、 write-coredump ステートメントを設定します。

特定のFPC、FEB、またはCFEBに対して、複数のアクションを設定できます。アクションを設定しない場合、 sanity-poll ステートメントは FPC、FEB、または CFEB システム ログ メッセージのみを生成します。

フレキシブルPICコンセントレータをオフラインのままにするためのJunos OSの設定

デフォルトでは、フレキシブルPICコンセントレータ(FPC)は、システムの再起動後に再起動するように設定されています。request chassis fpc 動作モードコマンドを使用してFPCをオフラインにできますが、Junos OSでは、commit CLI コマンドを入力するとFPCが再起動を試みます。FPCをオフラインのままにして再起動しないように設定するには、[edit chassis fpc slot-number]階層レベルにpower offステートメントを含めます。

オフラインのままになるように設定されたFPCをオンラインにし、オンラインを維持するように設定するには、[edit chassis fpc slot-number]階層レベルで power on ステートメントを含めます。

オフラインのままにするための SFM の設定

デフォルトでは、 request chassis sfm CLI コマンドを使用してスイッチングおよび転送モジュール(SFM)をオフラインにすると、 commit CLI コマンドを入力すると SFM の再起動が試行されます。再起動を防ぐには、SFM をオフラインのままにするように設定します。この機能は、修復状況に役立ちます。

SFM をオフラインのままにするには、[edit chassis]階層レベルで sfm ステートメントを含めます。

  • slot number- SFM が設置されているスロット番号。

  • power off- SFM をオフラインにし、オフラインのままになるように設定します。

たとえば、次のステートメントはスロット 3 の SFM をオフラインにします。

show chassis sfm CLI コマンドを使用して、オフライン ステータスを確認します。

SFM をオンラインに戻すには、 edit chassis sfm ステートメントを削除してから、設定をコミットします。

FPCがオンラインになったときの、アクティブなFPCとのFPCシーケンス番号の再同期

M320、T320、T640、T1600、T4000、TX Matrix、およびTX Matrix Plusルーターでは、フレキシブルPICコンセントレータ(FPC)をオンラインにすると、FPCのシーケンス番号がルーター内の他のアクティブなFPCと同期せず、少量の初期トラフィックが失われる可能性があります。

トラフィックの損失を回避するには、[edit chassis]階層レベルに fpc-resync ステートメントを含めます。これにより、オンラインになったFPCのシーケンス番号が、ルーター内の他のアクティブなFPCと再同期されます。

手記:

ヌルルート フィルタリングを防止するため、同じシャーシ内に単一の LMNR ベース FPC と 1 つ以上の I チップ FPC が存在する場合、 fpc-resync コマンドは無効になります。

ハード ディスク エラー時にルーティング エンジンを再起動できるようにする

ハードディスクエラーが発生すると、ルーティングエンジンがローカルのpingに応答し、インターフェイスは稼働したままで、他のプロセスが応答しない状態になることがあります。

この状況から回復するには、ハード ディスク エラーが発生したときに自動的に再起動するように単一のルーティング エンジンを設定します。この機能を有効にするには、[edit chassis routing-engine]階層レベルで on-disk-failure reboot ステートメントを含めます。

デュアル ルーティング エンジン環境では、プライマリ ルーティング エンジンでハード ディスク エラーが検出された場合、バックアップ ルーティング エンジンが自動的にプライマリ ロールになるように設定できます。この機能を有効にするには、[edit chassis redundancy failover]階層レベルで on-disk-failure ステートメントを含めます。このステートメントについては、 Junos OS高可用性ユーザーガイドを参照してください。

ルーティング エンジン上のハード ディスクに障害が発生した場合、ルーティング エンジンを(再起動ではなく)停止するように設定できます。この機能を設定するには、[edit chassis routing-engine on-disk-failure]階層レベルで disk-failure-action (halt | reboot) ステートメントを含めます。

halt オプションを使用して、ハード ディスクに障害が発生したときにルーティング エンジンが停止するように設定します。再起動オプションを使用して、ハード ディスクに障害が発生したときに再起動するようにルーティング エンジンを設定します。

サーマルヘルスチェックとPSMウォッチドッグを使用したサーマルヘルスイベントの処理

温度ヘルスチェック機能を使用して、電力漏れなどの熱ヘルスイベントの検出時に実行するアクションを設定できます。サーマルチェック機能は、PSM(電源モジュール)の電力出力とFRUの消費電力を監視し、PSMの電力出力がFRUの消費電力をユーザー定義のしきい値だけ超えていることを検出すると、サーマルヘルスイベントがあると見なし、ユーザー設定に基づいてアクションを実行します。自動シャットダウンやアラームなどのアクションは、熱ヘルス イベントの検出時に開始するように設定できます。構成の例は次のとおりです。 set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700。この設定例では、漏電が 700 W を超えた場合にソフトウェアが熱正常性イベントを検出し、熱正常性障害が検出されてから 10 秒後にシステムをシャットダウンします。

サーマルヘルスチェック機能は、次の場合にのみ機能します。

  • ルーターには、両方のスロットに大容量のACまたはDC配電ユニット(PDU)が設置されており、各PDUのPSM数は同数です。AC PSM と DC PSM の両方がサポートされています。

    サポートされているPSMとPDUは以下のとおりです。

    • 大容量AC PSM(型式:PSM2-PTX-AC、ファームウェア:0210以降、ハードウェアリビジョン:06以降)

    • 大容量60A DC PSM (型式: PSM2-PTX-DC; ファームウェア: 0315 以降 ハードウェアリビジョン: 09 以降)

    • 大容量60A DC PDU(モデル:PDU2-PTX-DC、ハードウェアリビジョン07のファームウェアバージョン0404以降を使用、ハードウェアリビジョン08のファームウェアバージョン0503以降を使用)

    • 大容量ACデルタPDU(型式:PDU2-PTX-AC-D、ファームウェア:0305以降、ハードウェアリビジョン:04以降)

    • 大容量AC Wye PDU(型式:PDU2-PTX-AC-W、ファームウェア:0305以降、ハードウェアリビジョン:03以降)

    • 大容量単相AC PDU(型式:PDU2-PTX-AC-SP、ファームウェア:0102以降、ハードウェアリビジョン:03以降)

  • 各PDUには、少なくとも3つのPSMがオンラインであり、各オンラインPSMが60Aを超える電流(AC PSMの場合)または100Aを超える電流(DC PSMの場合)を消費しています。

  • どのFRU(RE、SIB、FPC)も「現在」状態ではありません。

ルーターでは、[editchassis]階層でPSMウォッチドッグ機能を設定することもできます。温度正常性イベントによってJunosがダウンした場合、PSMウォッチドッグ機能がそれを検知し、ルーターをシャットダウンします。ウォッチドッグ設定では、ウォッチドッグタイマーを秒単位で指定できます。指定された期間が経過すると、ウォッチドッグは期限切れになります。Junosがウォッチドッグカウンターをリセットする頻度(分単位)を指定することもできます。ルーティングエンジンのクラッシュなどの理由でウォッチドッグカウンタがリセットされない場合、PSMはウォッチドッグタイマの有効期限の出力電源をオフにし、ルーターをシャットダウンします。

設定例は次のとおりです。

  • set chassis psm watchdog timeout 600 pat-frequency 2を使用してください。このコマンドは、ウォッチドッグタイマーを600秒に設定し、カウンタが2分ごとにリセットされるように設定されたPSMウォッチドッグを有効にします。
  • set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10.を使用してください。このコマンドは、サーマルヘルスチェックを有効にし、FET障害が検出されてから10秒後にシステムをシャットダウンします。
手記:

PSMウォッチドッグ機能は、ルーター内のすべてのオンラインPSMがこの機能をサポートしている場合にのみ機能します。

つまり、温度イベントが発生したときにルーティング エンジン ソフトウェアが実行されている場合、熱ヘルスチェック機能が熱イベントを検出し、アクションを実行します。しかし、サーマルヘルスイベントでルーティングエンジンソフトウェアがダウンした場合、PSMウォッチドッグタイマーがこの問題を検出してシステムをダウンさせます。

変更履歴テーブル

機能のサポートは、使用しているプラットフォームとリリースによって決まります。 機能エクスプローラー を使用して、機能がプラットフォームでサポートされているかどうかを判断します。

解放
形容
13.3
M320ルーターのJunos OSリリース13.3またはリリース14.2以降、MXシリーズ、PTXシリーズ、Tシリーズルーターを使用して、FPCのパケット転送エンジン(PFE)関連のエラーレベルと、指定したしきい値に達したときに実行するアクションを設定できます。