エラーの管理
FPCエラーレベルとアクションの設定
MXシリーズ、PTXシリーズ、T Seriesルーターを使用して、FPCのパケット転送エンジン(PFE)関連のエラーレベルと、指定したしきい値に達したときに実行するアクションを設定できます。Junos OS リリース 13.2 以前では、パケット転送エンジンエラーにより FPC が無効になっていました。 error コマンドを使用すると、パケット転送エンジンエラーを分離できるため、フィールド置換の必要性を減らすことができます。 error コマンドを使用すると、重大度に応じてエラーを分類し、各重大度に自動リカバリー・アクションを設定し、指定したしきい値に達したときに実行するアクションを構成できます。このコマンドは、 [edit chassis fpc slot-number] および [edit chassis] 階層で使用できます。
FPCのパケット転送エンジンのエラーレベルとアクションを設定するには、次の手順に従います。
-
(オプション)致命的エラーレベルのしきい値とアクションを設定します。致命的なエラーとは、モジュール間で大量のトラフィックをブロックする原因となるエラーのことです。
[edit chassis fpc fpc-number error] user@host# set fatal action action user@host# set fatal threshold threshold-level
エラーの重大度レベルが致命的である場合、エラーの総数がしきい値に達したときにアクションが実行されます。しきい値を超えると、エラーが発生するたびにアクションが実行されます。
-
(オプション)重大エラーレベルのしきい値とアクションを設定します。重大エラーとは、パケット トラフィックの損失が継続的に発生するが、他のモジュールには影響しないエラーのことです。
[edit chassis fpc fpc-number error] user@host# set major action action user@host# set major threshold threshold-level
エラーの重大度レベルがメジャーの場合、エラーの合計数がしきい値に達したときにアクションが実行されます。しきい値を超えると、エラーが発生するたびにアクションが実行されます。
-
(オプション)軽度エラー レベルのしきい値とアクションを設定します。軽微なエラーとは、1 つのパケットの損失につながるが、完全に回復可能なエラーです。
[edit chassis fpc fpc-number error] user@host# set minor action action user@host# set minor threshold threshold-level
重大度レベルが軽微な場合、エラーの総数がしきい値に達したときにアクションが 1 回だけ実行されます
MXシリーズルーターは、エラースコープとエラーカテゴリーレベルでのエラーしきい値とアクションの設定をサポートしています。 set chassis fpc fpc-slot error scope error-scope category category (fatal | major | minor) threshold error-threshold action (alarm | disable-pfe | get-state | offline | log | reset | trap | online-pfe | reset-pfe) コマンドを使用して、FPCレベルで特定のエラーの範囲とカテゴリに対するしきい値とアクションを設定します。これらの機能は、シャーシレベル( [edit chassis] 階層)でも設定できます。ただし、 [edit chassis fpc] 階層で設定されたしきい値とアクションは、 [edit chassis] 階層の同じ設定を上書きします。
コマンド show chassis fpc errors を使用すると、エラーの範囲とカテゴリ レベルでエラー情報を表示できます。
Junos OS Evolvedでは、次の show コマンドを使用してエラー情報を表示できます。
-
show system errors count- システム全体のエラーとその数を表示します。 -
show system errors active- システム内の現在のアクティブなエラーを表示します。 -
show system errors active fpc <slot number>- 指定された FPC のアクティブなエラーを表示します。 -
show system errors fru detail- FRU 固有の詳細なエラーを表示します。 -
show system errors fru detail fpc <slot number>- FRUに基づいて検出されたエラーに関する情報を表示します。
特定のエラーしきい値に対してアクション log を設定した場合、エラーカウントが設定されたしきい値を超えると、システムはイベントをログに記録します。次の syslog メッセージの例は、エラーしきい値の違反と、その結果として実行中のアクションを示しています。
Sep 17 23:12:10 sw-s3-u8-03 fpc0 Error: /fpc/0/pfe/0/cm/0/PE_Chip/1/PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR (0x21078b), scope: pfe, category: functional, severity: minor, module: PE Chip, type: Description for PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR Sep 17 23:12:10 sw-s3-u8-03 fpc0 Performing action log for error /fpc/0/pfe/0/cm/0/PE_Chip/1/PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR (0x21078b) in module: PE Chip with scope: pfe category: functional level: minor
offline, reset, disable-pfe, offline-pfeとreset-pfe アクションは、設定に関して相互に排他的です。offline-pfeまたはreset-pfe が設定されている場合、指定されたPFEは自動的に無効になります。
disable-pfe は、Junos 17.4 以降のバージョンで使用できます。
以下の表は、PFEエラーマッピングアクションとシステム応答の詳細を示しています。
| アクション | 応答 |
|---|---|
disable-pfe |
すべてのPFEインターフェイス、アラーム、ログを無効にします。 |
offline |
FPCをオフラインにし、アラームとログを無効にします。 |
reset |
FPCをオフラインにしてオンラインにリセットし、アラームとログを有効にします。 |
reset-pfe |
PFE の電源をオフにし、アラームとログを無効にしてから、PFE の電源をオンにして、アラームとログを有効にします。 |
offline-pfe |
PFEの電源をオフにし、アラームとログを無効にします。 |
例:T Series コア ルーターでの FPC エラー検出と自己修復の設定
この例では、Type 5 FPCを搭載したJuniper Networks T Series Coreルーターでエラー検出と自己修復を設定する方法を説明します。
必要条件
この例では、以下のハードウェアとソフトウェアのコンポーネントを使用しています。
ジュニパーネットワークス T4000 コア ルーター(タイプ 5 FPC)
Junos OS リリース 13.3 以降
先に進む前に、必要な接続が完了し、インターフェイスが機能していることを確認してください。
概要
FPCのエラー検出と自己修復では、特定の重大度のエラー数がユーザーが設定したしきい値を超えた場合に、各FPCで実行する一連のアクションを設定します。エラーの重大度は、致命的、重大、および軽微に分類されます。回復アクションには、アラームの発生、ログエントリの生成、FPCの現在の状態の取得、FPCの再起動、FPCのオフライン化、FPCのリセットが含まれます。特定のFPCとエラーの重大度に対して、エラーしきい値を許容範囲内の任意の値に設定し、しきい値をアクションにマッピングできます。この例では、Juniper Networks T4000 コア ルーターの FPC 0 にこれらのエラーを設定します。
構成
エラー検出と自己修復を設定するには、エラーの重大度、各エラーの重大度に対応するしきい値、およびしきい値を超えたときに実行するアクションを設定する必要があります。
CLIクイック構成
この例を迅速に設定するには、以下のコマンドをコピーしてテキストファイルに貼り付け、改行を削除し、ネットワーク設定に一致させる必要がある詳細情報を変更し、コマンドを[editinterfaces]階層レベルのCLIにコピー&ペーストしてください。
set chassis fpc 0 fatal threshold 1 action resetset chassis fpc 0 major threshold 1 action alarmset chassis fpc 0 minor threshold 10 action log
エラー検出と自己修復の設定
手順
次の例では、設定階層のいくつかのレベルに移動する必要があります。CLIのナビゲーションについては、 設定モードでのCLIエディターの使用 および CLIユーザーガイドを参照してください。
しきい値と致命的なエラーに対する関連アクションを設定します。
エラーの重大度を致命的に設定します。
[edit interfaces]user@host# set chassis fpc 0 error fatal致命的なエラーのしきい値を設定します。
[edit interfaces]user@host# set chassis fpc 0 error fatal threshold 1致命的なエラーに関連するアクションを設定します。
[edit interfaces]user@host# set chassis fpc 0 error fatal threshold 1 action reset
しきい値と、重大なエラーに対する関連アクションを設定します。
エラーの重大度をメジャーに設定します。
[edit interfaces]user@host# set chassis fpc 0 error major重大エラーのしきい値を設定します。
[edit interfaces]user@host# set chassis fpc 0 error major threshold 1重大なエラーに対する関連アクションを設定します。
[edit interfaces]user@host# set chassis fpc 0 error major threshold 1 action alarm
軽微なエラーに対するしきい値と関連するアクションを設定します。
エラーの重大度を minor に設定します。
[edit interfaces][edit interfaces]user@host# set chassis fpc 0 error minor軽微なエラーのしきい値を設定します。
[edit interfaces]user@host# set chassis fpc 0 error minor threshold 10軽微なエラーに対する関連アクションを設定します。
[edit interfaces]user@host# set chassis fpc 0 error minor threshold 10 action log
業績
以下は、致命的な重大度レベルの構成の結果です。
user@host# set chassis fpc 0 error ? Possible completions: + apply-groups Groups from which to inherit configuration data + apply-groups-except Don't inherit configuration data from these groups > fatal FPC Fatal errors (default threshold = 1) > major FPC Major Level errors (default threshold = 1) > minor FPC Minor Level errors (default threshold = 10)user@host# set chassis fpc 0 error fatal action ? Possible completions: alarm Raise FPC alarm get-state Retreive FPC state for debugging log Log occurence to system log file offline Offline FPC offline-pic Offline PICs associated with PFE on FPC reset Reset FPCuser@host# set chassis fpc 0 error fatal action resetuser@host# set chassis fpc 0 error fatal threshold ? Possible completions: <threshold> Error count at which to take the action (0..4294967295)user@host# set chassis fpc 0 error fatal threshold 1
デバイスの設定が完了したら、設定モードから commit を入力します。
検証
設定が成功し、ルーターに正しいアクションが設定されていることを確認するには、 show chassis fpc errors コマンドを使用します。
FPCエラーの致命的な重大度に関連する設定済みアクションの確認
目的
しきい値と関連するアクションが致命的なエラーに対して設定されていることを確認します。
アクション
user@host> show chassis fpc errors
FPC Level Occurred Cleared Threshold Action-Taken Action
0 Fatal 0 0 1 RESET
Pfe-State: pfe-0 -ENABLED | pfe-1 -ENABLED | pfe-2 -ENABLED | pfe-3 -ENABLED | pfe-4 -ENABLED | pfe-5 -ENABLED | pfe-6 -ENABLED | pfe-7 -ENABLED |
意味
サンプル出力では、FPC 0でのFatalエラーが、0エラーOccurred(以前の発生なし)、0エラーCleared(以前の発生なし)、Threshold値が 1、Action-Taken が RESET に設定されている場合を示しています。
FPCエラーの管理
PTXシリーズルーターでは、FPCエラーを無効にしたり、error-idレベルでエラーの重大度を変更したりできます。この機能をサポートするPTXプラットフォームの詳細については、 FPC自己修復 を参照してください。
FPC エラーを一意に識別する error-id は、Uniform Resource Identifier(URI)形式で表現され、モジュール識別子とエラー識別子で構成されます。エラーが発生した場合は、システムログメッセージにerror-idが表示されます。
エラーの重大度の変更
新しいエラー重大度を構成することはできませんが、既存のエラー重大度を変更することはできます。たとえば、特定のエラー (error-id で識別される) を致命的として扱いたくない場合は、必要に応じて重大度をメジャーまたはマイナーに変更できます。
エラーの重大度をグループ(カテゴリなど)レベルで変更することはできません。
エラーの重大度を変更するには、次のコマンドを使用します。
user@host# set chassis fpc fpc-slot error error-id severity new-severity
次の例を参照してください。
user@host# set chassis fpc 3 error "/cpu/0/memory/0/ECC_CORRECTED_ERROR" severity minor
上記の例では、FPC 3 で “/cpu/0/memory/0/memory-uncorrected-error” エラー ID の重大度を minor に変更しました。
エラーの無効化
エラーの報告を停止するようにシステムを構成するには、error-id を識別して無効にします。error-id は、システム ログ メッセージで確認できます。エラーを無効にするには、次のコマンドを使用します。
user@host# set chassis fpc fpc-slot error error-id state disable
次の例を参照してください。
user@host# set chassis fpc 3 error "/cpu/0/memory/0/ECC_CORRECTED_ERROR" state disable
上記の例では、FPC 3 のエラー “/cpu/0/memory/0/memory-uncorrected-error” を無効にしました。
サニティーポーリングの設定
特定のFPC、FEB、またはCFEBに対して sanity-poll ステートメントを設定して、そのFPC、FEB、またはCFEBの定期的なサニティーチェックを開始できます。定期的なサニティ チェックには、「レジスタのサニティの問題」、「高温」、「ハードウェア障害」などのエラー状態のチェックが含まれます。 sanity-poll ステートメントを設定しない場合、サニティーポーリングは無効になります。
現在、定期的なサニティ チェックはルーティング チップ レジスタでのみ実行されています。
サニティーポーリングは、FPC、FEB、CFEBのエラー状態を定期的にチェックし、エラーが発生した場合は適切なアクションを実行します。
T SeriesルーターとM320ルーターでFPCのサニティーポーリングを設定するには、
[edit chassis fpc slot-number]階層レベルでsanity-pollステートメントとそのサブステートメントを含めます。[edit chassis] fpc slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }M120ルーターでFEBのサニティーポーリングを設定するには、
[edit chassis feb slot-number]階層レベルでsanity-pollステートメントとそのサブステートメントを含めます。[edit chassis] feb slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }M7iおよびM10ルーター上のCFEBのサニティーポーリングを設定するには、
[edit chassis cfeb slot-number]階層レベルでsanity-pollステートメントとそのサブステートメントを含めます。[edit chassis] cfeb slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }
TX MatrixまたはTX Matrix Plusルーターでは、[edit chassis lcc number fpc number]階層レベルでsanity-pollステートメントを設定できます。
sanity-pollステートメントは、以下のサブステートメントで構成されています。
retry-countステートメントは、特定のエラー条件の発生後に実行される再チェックの回数を指定します。すべての定期チェックでエラーが存在する場合、サニティーポーリングはエラーを報告し、適切なアクション(on-errorステートメントの オプションとして説明)の実行に進みます。例えば、定期的なサニティー チェックで FPC、FEB、または CFEB でエラーが検出され、
retry count numberを 15 に設定した場合、サニティー ポーリングはエラーをすぐには報告しません。サニティー ポーリングは、同じエラー状態を 15 回チェックします。15回すべての再チェックでエラーが続く場合は、エラーを報告し、適切なアクションを実行します。retry-countステートメントを設定しない場合、デフォルトでは、sanity-pollステートメントはエラー状態を報告する前に、検出されたエラーを10回再チェックします。サニティーポーリングがエラー状態を検出すると、
on-errorステートメントは適切なアクションを実行してエラーを排除します。次のアクションは、すべての種類のエラー状態に共通です。
シャーシアラームを生成するには、
raise-alarmステートメントを設定します。シャーシアラームは、シャーシのフロントパネルに表示されます。コア ファイルを生成した後に FPC、FEB、または CFEB を再起動するには、
power cycleステートメントを設定します。このステートメントは、再起動後に排除される一時的なソフトウェアエラーに役立ちます。FPC、FEB、CFEBを停止するには、
power offステートメントを設定します。このステートメントは、永続的なハードウェア障害が発生した場合に役立ちます。注意:power off文はFPCを停止します。サービスの停止を回避するため、別のFPC、FEB、またはCFEBを経由するバックアップパスがあることを確認してください。手記:power cycleステートメントとpower offステートメントは相互に排他的です。 エラーに対して、power cycleまたはpower offアクションのいずれかを設定できます。コアファイルをトリガーするには、
write-coredumpステートメントを設定します。
特定のFPC、FEB、またはCFEBに対して複数のアクションを設定できます。アクションを設定しない場合、 sanity-poll ステートメントはFPC、FEB、またはCFEBシステムログメッセージのみを生成します。
フレキシブルPICコンセントレータをオフラインにするためのJunos OSの設定
デフォルトでは、フレキシブルPICコンセントレータ(FPC)は、システムの再起動後に再起動するように設定されています。request chassis fpc運用モードコマンドを使用してFPCをオフラインにすることができますが、Junos OSでは、commitCLIコマンドを入力するとFPCが再起動を試みます。FPCをオフラインのままで再起動しないように設定するには、[edit chassis fpc slot-number]階層レベルでpower offステートメントを含めます。
[edit chassis fpc slot-number] power off;
オフラインのままになるように設定されたFPCをオンラインにし、オンラインを維持するように設定するには、[edit chassis fpc slot-number]階層レベルでpower onステートメントを含めます。
[edit chassis fpc slot-number] power on;
オフラインを維持するための SFM の設定
デフォルトでは、 request chassis sfm CLI コマンドを使用してスイッチングおよび転送モジュール(SFM)をオフラインにすると、 commit CLI コマンドを入力すると SFM が再起動しようとします。再起動を防ぐには、オフラインのままになるように SFM を設定します。この機能は、修復の状況で役立ちます。
オフライン状態になるように SFM を設定するには、[edit chassis] 階層レベルで sfm ステートメントを含めます。
[edit chassis]
sfm slot-number {
power off;
}
slot number:SFM が取り付けられているスロット番号。power off- SFM をオフラインにし、オフラインのままになるように設定します。
例えば、次のステートメントはスロット 3 の SFM をオフラインにします。
[edit chassis] sfm 3 power off;
show chassis sfm CLI コマンドを使用して、オフラインステータスを確認します。
user@host# show chassis sfm Temp CPU Utilization (%) Memory Utilization (%) Slot State (C) Total Interrupt DRAM (MB) Heap Buffer 0 Online 34 2 0 64 16 47 1 Online 38 2 0 64 16 47 2 Online 42 2 0 64 16 47 3 Offline --- Configured power off ---
SFM をオンラインに戻すには、 edit chassis sfm ステートメントを削除し、設定をコミットします。
FPCがオンラインになったときのFPCシーケンス番号とアクティブなFPCの再同期
M320、T320、T640、T1600、T4000、TX Matrix、およびTX Matrix Plusルーターでは、FPC(フレキシブルPICコンセントレータ)をオンラインにすると、FPCのシーケンス番号がルーター内の他のアクティブなFPCと同期しない場合があり、その結果、少量の初期トラフィックが失われる可能性があります。
トラフィックの損失を回避するには、[edit chassis]階層レベルでfpc-resyncステートメントを含めます。これにより、オンラインになったFPCのシーケンス番号が、ルーター内の他のアクティブなFPCと再同期されます。
[edit chassis] fpc-resync;
ヌル ルート フィルタリングを防止するため、1 つの LMNR ベースの FPC と 1 つ以上の I チップ FPC が同じシャーシ内に存在する場合、 fpc-resync コマンドは無効です。
ハード ディスク エラー時にルーティングエンジンの再起動を有効にする
ハード ディスク エラーが発生すると、ルーティングエンジンはローカル ping に応答し、インターフェイスはアップしたままになるが、他のプロセスは応答しない状態になることがあります。
この状況から回復するために、ハード ディスク エラーが発生したときに自動的に再起動するように単一のルーティングエンジンを設定できます。この機能を有効にするには、[edit chassis routing-engine]階層レベルでon-disk-failure rebootステートメントを含めます。
[edit chassis routing-engine]
on-disk-failure {
disk-failure-action (halt | reboot);
}
デュアルルーティングエンジン環境では、バックアップルーティングエンジンがプライマリルーティングエンジンでハードディスクエラーを検出した場合に、自動的にプライマリロールを引き受けるように設定できます。この機能を有効にするには、[edit chassis redundancy failover]階層レベルでon-disk-failureステートメントを含めます。このステートメントの詳細については、Junos OS高可用性ユーザーガイドを参照してください。
ルーティングエンジンでハード ディスクに障害が発生した場合、ルーティングエンジンを(再起動せずに)停止するように設定できます。この機能を設定するには、[edit chassis routing-engine on-disk-failure]階層レベルでdisk-failure-action (halt | reboot)ステートメントを含めます。
[edit chassis routing-engine]
on-disk-failure {
disk-failure-action (halt | reboot);
}
ハード ディスクに障害が発生したときにルーティングエンジンを停止するように設定するには、 halt オプションを使用します。 再起動 オプションを使用して、ハード ディスクに障害が発生したときにルーティングエンジンが再起動するように設定します。
サーマルヘルスチェックとPSM Watchdogを使用したサーマルヘルスイベントの処理
温度ヘルスチェック機能を使用して、漏電などの熱ヘルスイベントの検出時に実行するアクションを構成できます。温度チェック機能は、PSM(電源モジュール)の電力出力と FRU の電力消費量を監視し、PSM の電力出力が FRU の電力消費量をユーザー定義のしきい値を超えて検出すると、熱状態イベントがあると見なし、ユーザーの設定に基づいてアクションを実行します。自動シャットダウンやアラームなどのアクションは、温度正常性イベントの検出時に開始されるように設定できます。設定の例は次のとおりです。 set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700。この構成例では、漏電が 700 W を超えた場合にソフトウェアが熱状態イベントを検出し、温度状態障害が検出されてから 10 秒後にシステムをシャットダウンできます。
サーマルヘルスチェック機能は、次の場合にのみ機能します。
ルーターでは、両方のスロットに大容量のACまたはDC配電ユニット(PDU)がインストールされており、各PDUのPSMの数は同じです。AC PSM と DC PSM の両方がサポートされています。
サポートされているPSMとPDUを以下に示します。
大容量AC PSM(型式:PSM2-PTX-AC、ファームウェア:0210以降、ハードウェアリビジョン:06以降)
大容量 60A DC PSM (型式:PSM2-PTX-DC、ファームウェア:0315 以降、ハードウェアリビジョン:09 以降)
大容量60A DC PDU(モデル:PDU2-PTX-DC、ファームウェアバージョン0404以降とハードウェアリビジョン07を使用、ファームウェアバージョン0503以降とハードウェアリビジョン08を使用)
大容量 AC デルタ PDU(モデル:PDU2-PTX-AC-D、ファームウェア:0305 以降、ハードウェア リビジョン:04 以降)
大容量 AC ワイ PDU(モデル:PDU2-PTX-AC-W、ファームウェア:0305 以上、ハードウェア リビジョン:03 以降)
大容量単相AC PDU(モデル:PDU2-PTX-AC-SP、ファームウェア:0102以降、ハードウェアリビジョン:03以降)
各PDUには少なくとも3つのオンラインPSMがあり、各オンラインPSMは60Aを超える電流(AC PSMの場合)または100Aを超える電流(DC PSMの場合)を消費しています。
FRU(RE、SIB、FPC)のいずれも「Present」状態ではありません。
ルーターでは、[editchassis]階層でPSMウォッチドッグ機能を設定することもできます。温度状態イベントによってJunosがダウンした場合、PSMウォッチドッグ機能がそれを検知し、ルーターをシャットダウンします。ウォッチドッグ構成では、ウォッチドッグタイマーを秒単位で指定できます。指定された期間が経過すると、ウォッチドッグの有効期限が切れます。Junosがウォッチドッグ カウンターをリセットする頻度(分単位)を指定することもできます。ルーティングエンジンのクラッシュなどの理由でウォッチドッグ カウンターがリセットされない場合、PSM はウォッチドッグ タイマーの期限が切れた時点で出力電源をオフにし、それによってルーターをシャットダウンします。
構成例は次のとおりです。
set chassis psm watchdog timeout 600 pat-frequency 2を使用します。このコマンドは、ウォッチドッグ タイマーを 600 秒に設定して PSM ウォッチドッグを有効にし、カウンタを 2 分ごとにリセットするように設定します。set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10.を使用します。このコマンドは、サーマルヘルスチェックを有効にし、FET障害が検出されてから10秒後にシステムをシャットダウンします。
PSMウォッチドッグ機能は、ルーター内のすべてのオンラインPSMがこの機能をサポートしている場合にのみ機能します。
つまり、温度イベントが発生したときにルーティングエンジン ソフトウェアが実行中の場合、温度ヘルス チェック機能が温度イベントを検知してアクションを実行します。ただし、ルーティングエンジン ソフトウェアが熱状態イベントでダウンした場合、この問題を検出してシステムをダウンさせるのは PSM ウォッチドッグ タイマーです。
変更履歴
サポートされる機能は、使用しているプラットフォームとリリースによって決まります。特定の機能がお使いのプラットフォームでサポートされているかどうかを確認するには、 Feature Explorer を使用します。