項目一覧

FPCエラーレベルとアクションの設定
例:T Series コアルーターでの FPC エラー検出と自己修復の設定
FPCエラーの管理
サニティーポーリングの設定
フレキシブルPICコンセントレータをオフラインにするためのJunos OSの設定
オフラインを維持するための SFM の設定
FPCがオンラインになったときのFPCシーケンス番号とアクティブなFPCの再同期
ハードディスクエラー時にルーティングエンジンの再起動を有効にする
サーマルヘルスチェックとPSM Watchdogを使用したサーマルヘルスイベントの処理

エラーの管理

FPCエラーレベルとアクションの設定

MXシリーズ、PTXシリーズ、T Seriesルーターを使用して、FPCのパケット転送エンジン(PFE)関連のエラーレベルと、指定したしきい値に達したときに実行するアクションを設定できます。Junos OS リリース 13.2 以前では、パケット転送エンジンエラーにより FPC が無効になっていました。 error コマンドを使用すると、パケット転送エンジンエラーを分離できるため、フィールド置換の必要性を減らすことができます。 error コマンドを使用すると、重大度に応じてエラーを分類し、各重大度に自動リカバリー・アクションを設定し、指定したしきい値に達したときに実行するアクションを構成できます。このコマンドは、 [edit chassis fpc slot-number] および [edit chassis] 階層で使用できます。

FPCのパケット転送エンジンのエラーレベルとアクションを設定するには、次の手順に従います。

(オプション)致命的エラーレベルのしきい値とアクションを設定します。致命的なエラーとは、モジュール間で大量のトラフィックをブロックする原因となるエラーのことです。
エラーの重大度レベルが致命的である場合、エラーの総数がしきい値に達したときにアクションが実行されます。しきい値を超えると、エラーが発生するたびにアクションが実行されます。
(オプション)重大エラーレベルのしきい値とアクションを設定します。重大エラーとは、パケットトラフィックの損失が継続的に発生するが、他のモジュールには影響しないエラーのことです。
エラーの重大度レベルがメジャーの場合、エラーの合計数がしきい値に達したときにアクションが実行されます。しきい値を超えると、エラーが発生するたびにアクションが実行されます。
(オプション)軽度エラーレベルのしきい値とアクションを設定します。軽微なエラーとは、1 つのパケットの損失につながるが、完全に回復可能なエラーです。
重大度レベルが軽微な場合、エラーの総数がしきい値に達したときにアクションが 1 回だけ実行されます

コマンド show chassis fpc errors を使用すると、エラーの範囲とカテゴリレベルでエラー情報を表示できます。

Junos OS Evolvedでは、次の show コマンドを使用してエラー情報を表示できます。

show system errors count- システム全体のエラーとその数を表示します。
show system errors active- システム内の現在のアクティブなエラーを表示します。
show system errors active fpc <slot number> - 指定された FPC のアクティブなエラーを表示します。
show system errors fru detail- FRU 固有の詳細なエラーを表示します。
show system errors fru detail fpc <slot number>- FRUに基づいて検出されたエラーに関する情報を表示します。

特定のエラーしきい値に対してアクション log を設定した場合、エラーカウントが設定されたしきい値を超えると、システムはイベントをログに記録します。次の syslog メッセージの例は、エラーしきい値の違反と、その結果として実行中のアクションを示しています。

offline, reset, disable-pfe, offline-pfeとreset-pfe アクションは、設定に関して相互に排他的です。offline-pfeまたはreset-pfe が設定されている場合、指定されたPFEは自動的に無効になります。

手記：デフォルトの FPC メジャーアラームアクションが MPC6E に追加されました。オプション disable-pfe は、Junos 17.4 以降のバージョンで使用できます。

以下の表は、PFEエラーマッピングアクションとシステム応答の詳細を示しています。

表 1:PFE エラーマッピングアクションと対応
アクション	応答
`disable-pfe`	すべてのPFEインターフェイス、アラーム、ログを無効にします。
`offline`	FPCをオフラインにし、アラームとログを無効にします。
`reset`	FPCをオフラインにしてオンラインにリセットし、アラームとログを有効にします。
`reset-pfe`	PFE の電源をオフにし、アラームとログを無効にしてから、PFE の電源をオンにして、アラームとログを有効にします。
`offline-pfe`	PFEの電源をオフにし、アラームとログを無効にします。

例:T Series コアルーターでの FPC エラー検出と自己修復の設定

この例では、Type 5 FPCを搭載したJuniper Networks T Series Coreルーターでエラー検出と自己修復を設定する方法を説明します。

必要条件
概要
構成
検証

必要条件

この例では、以下のハードウェアとソフトウェアのコンポーネントを使用しています。

ジュニパーネットワークス T4000 コアルーター(タイプ 5 FPC)
Junos OS リリース 13.3 以降

先に進む前に、必要な接続が完了し、インターフェイスが機能していることを確認してください。

概要

FPCのエラー検出と自己修復では、特定の重大度のエラー数がユーザーが設定したしきい値を超えた場合に、各FPCで実行する一連のアクションを設定します。エラーの重大度は、致命的、重大、および軽微に分類されます。回復アクションには、アラームの発生、ログエントリの生成、FPCの現在の状態の取得、FPCの再起動、FPCのオフライン化、FPCのリセットが含まれます。特定のFPCとエラーの重大度に対して、エラーしきい値を許容範囲内の任意の値に設定し、しきい値をアクションにマッピングできます。この例では、Juniper Networks T4000 コアルーターの FPC 0 にこれらのエラーを設定します。

構成

エラー検出と自己修復を設定するには、エラーの重大度、各エラーの重大度に対応するしきい値、およびしきい値を超えたときに実行するアクションを設定する必要があります。

CLIクイック構成
エラー検出と自己修復の設定
業績

CLIクイック構成

この例を迅速に設定するには、以下のコマンドをコピーしてテキストファイルに貼り付け、改行を削除し、ネットワーク設定に一致させる必要がある詳細情報を変更し、コマンドを[editinterfaces]階層レベルのCLIにコピー&ペーストしてください。

エラー検出と自己修復の設定

手順

次の例では、設定階層のいくつかのレベルに移動する必要があります。CLIのナビゲーションについては、設定モードでのCLIエディターの使用および CLIユーザーガイドを参照してください。

しきい値と致命的なエラーに対する関連アクションを設定します。
1. エラーの重大度を致命的に設定します。
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error fatal
2. 致命的なエラーのしきい値を設定します。
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error fatal threshold 1
3. 致命的なエラーに関連するアクションを設定します。
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error fatal threshold 1 action reset

しきい値と、重大なエラーに対する関連アクションを設定します。
1. エラーの重大度をメジャーに設定します。
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error major
2. 重大エラーのしきい値を設定します。
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error major threshold 1
3. 重大なエラーに対する関連アクションを設定します。
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error major threshold 1 action alarm

軽微なエラーに対するしきい値と関連するアクションを設定します。
1. エラーの重大度を minor に設定します。
  
  [edit interfaces]
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error minor
2. 軽微なエラーのしきい値を設定します。
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error minor threshold 10
3. 軽微なエラーに対する関連アクションを設定します。
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error minor threshold 10 action log

業績

以下は、致命的な重大度レベルの構成の結果です。

デバイスの設定が完了したら、設定モードから commit を入力します。

検証

設定が成功し、ルーターに正しいアクションが設定されていることを確認するには、 show chassis fpc errors コマンドを使用します。

目的

しきい値と関連するアクションが致命的なエラーに対して設定されていることを確認します。

アクション

意味

サンプル出力では、FPC 0でのFatalエラーが、0エラーOccurred(以前の発生なし)、0エラーCleared(以前の発生なし)、Threshold値が 1、Action-Taken が RESET に設定されている場合を示しています。

FPCエラーの管理

PTXシリーズルーターでは、FPCエラーを無効にしたり、error-idレベルでエラーの重大度を変更したりできます。この機能をサポートするPTXプラットフォームの詳細については、 FPC自己修復を参照してください。

FPC エラーを一意に識別する error-id は、Uniform Resource Identifier(URI)形式で表現され、モジュール識別子とエラー識別子で構成されます。エラーが発生した場合は、システムログメッセージにerror-idが表示されます。

エラーの重大度の変更
エラーの無効化

エラーの重大度の変更

新しいエラー重大度を構成することはできませんが、既存のエラー重大度を変更することはできます。たとえば、特定のエラー (error-id で識別される) を致命的として扱いたくない場合は、必要に応じて重大度をメジャーまたはマイナーに変更できます。

手記：

エラーの重大度をグループ(カテゴリなど)レベルで変更することはできません。

エラーの重大度を変更するには、次のコマンドを使用します。

次の例を参照してください。

上記の例では、FPC 3 で “/cpu/0/memory/0/memory-uncorrected-error” エラー ID の重大度を minor に変更しました。

エラーの無効化

エラーの報告を停止するようにシステムを構成するには、error-id を識別して無効にします。error-id は、システムログメッセージで確認できます。エラーを無効にするには、次のコマンドを使用します。

次の例を参照してください。

上記の例では、FPC 3 のエラー “/cpu/0/memory/0/memory-uncorrected-error” を無効にしました。

サニティーポーリングの設定

特定のFPC、FEB、またはCFEBに対して sanity-poll ステートメントを設定して、そのFPC、FEB、またはCFEBの定期的なサニティーチェックを開始できます。定期的なサニティチェックには、「レジスタのサニティの問題」、「高温」、「ハードウェア障害」などのエラー状態のチェックが含まれます。 sanity-poll ステートメントを設定しない場合、サニティーポーリングは無効になります。

手記：

現在、定期的なサニティチェックはルーティングチップレジスタでのみ実行されています。

サニティーポーリングは、FPC、FEB、CFEBのエラー状態を定期的にチェックし、エラーが発生した場合は適切なアクションを実行します。

T SeriesルーターとM320ルーターでFPCのサニティーポーリングを設定するには、[edit chassis fpc slot-number]階層レベルでsanity-pollステートメントとそのサブステートメントを含めます。

M120ルーターでFEBのサニティーポーリングを設定するには、[edit chassis feb slot-number]階層レベルでsanity-pollステートメントとそのサブステートメントを含めます。

M7iおよびM10ルーター上のCFEBのサニティーポーリングを設定するには、[edit chassis cfeb slot-number]階層レベルでsanity-pollステートメントとそのサブステートメントを含めます。

手記：

TX MatrixまたはTX Matrix Plusルーターでは、[edit chassis lcc number fpc number]階層レベルでsanity-pollステートメントを設定できます。

sanity-pollステートメントは、以下のサブステートメントで構成されています。

retry-count ステートメントは、特定のエラー条件の発生後に実行される再チェックの回数を指定します。すべての定期チェックでエラーが存在する場合、サニティーポーリングはエラーを報告し、適切なアクション(on-errorステートメントのオプションとして説明)の実行に進みます。

例えば、定期的なサニティーチェックで FPC、FEB、または CFEB でエラーが検出され、 retry count number を 15 に設定した場合、サニティーポーリングはエラーをすぐには報告しません。サニティーポーリングは、同じエラー状態を 15 回チェックします。15回すべての再チェックでエラーが続く場合は、エラーを報告し、適切なアクションを実行します。

retry-countステートメントを設定しない場合、デフォルトでは、sanity-pollステートメントはエラー状態を報告する前に、検出されたエラーを10回再チェックします。
サニティーポーリングがエラー状態を検出すると、 on-error ステートメントは適切なアクションを実行してエラーを排除します。

次のアクションは、すべての種類のエラー状態に共通です。
- シャーシアラームを生成するには、 raise-alarm ステートメントを設定します。シャーシアラームは、シャーシのフロントパネルに表示されます。
- コアファイルを生成した後に FPC、FEB、または CFEB を再起動するには、 power cycle ステートメントを設定します。このステートメントは、再起動後に排除される一時的なソフトウェアエラーに役立ちます。
- FPC、FEB、CFEBを停止するには、 power off ステートメントを設定します。このステートメントは、永続的なハードウェア障害が発生した場合に役立ちます。
  
  注意：
  
  power off文はFPCを停止します。サービスの停止を回避するため、別のFPC、FEB、またはCFEBを経由するバックアップパスがあることを確認してください。
  
  手記：
  power cycle ステートメントと power off ステートメントは相互に排他的です。エラーに対して、power cycleまたはpower offアクションのいずれかを設定できます。
- コアファイルをトリガーするには、 write-coredump ステートメントを設定します。

特定のFPC、FEB、またはCFEBに対して複数のアクションを設定できます。アクションを設定しない場合、 sanity-poll ステートメントはFPC、FEB、またはCFEBシステムログメッセージのみを生成します。

フレキシブルPICコンセントレータをオフラインにするためのJunos OSの設定

デフォルトでは、フレキシブルPICコンセントレータ(FPC)は、システムの再起動後に再起動するように設定されています。request chassis fpc運用モードコマンドを使用してFPCをオフラインにすることができますが、Junos OSでは、commitCLIコマンドを入力するとFPCが再起動を試みます。FPCをオフラインのままで再起動しないように設定するには、[edit chassis fpc slot-number]階層レベルでpower offステートメントを含めます。

オフラインのままになるように設定されたFPCをオンラインにし、オンラインを維持するように設定するには、[edit chassis fpc slot-number]階層レベルでpower onステートメントを含めます。

オフラインを維持するための SFM の設定

デフォルトでは、 request chassis sfm CLI コマンドを使用してスイッチングおよび転送モジュール(SFM)をオフラインにすると、 commit CLI コマンドを入力すると SFM が再起動しようとします。再起動を防ぐには、オフラインのままになるように SFM を設定します。この機能は、修復の状況で役立ちます。

オフライン状態になるように SFM を設定するには、[edit chassis] 階層レベルで sfm ステートメントを含めます。

slot number:SFM が取り付けられているスロット番号。
power off- SFM をオフラインにし、オフラインのままになるように設定します。

例えば、次のステートメントはスロット 3 の SFM をオフラインにします。

show chassis sfm CLI コマンドを使用して、オフラインステータスを確認します。

SFM をオンラインに戻すには、 edit chassis sfm ステートメントを削除し、設定をコミットします。

FPCがオンラインになったときのFPCシーケンス番号とアクティブなFPCの再同期

M320、T320、T640、T1600、T4000、TX Matrix、およびTX Matrix Plusルーターでは、FPC(フレキシブルPICコンセントレータ)をオンラインにすると、FPCのシーケンス番号がルーター内の他のアクティブなFPCと同期しない場合があり、その結果、少量の初期トラフィックが失われる可能性があります。

トラフィックの損失を回避するには、[edit chassis]階層レベルでfpc-resyncステートメントを含めます。これにより、オンラインになったFPCのシーケンス番号が、ルーター内の他のアクティブなFPCと再同期されます。

手記：

ヌルルートフィルタリングを防止するため、1 つの LMNR ベースの FPC と 1 つ以上の I チップ FPC が同じシャーシ内に存在する場合、 fpc-resync コマンドは無効です。

ハードディスクエラー時にルーティングエンジンの再起動を有効にする

ハードディスクエラーが発生すると、ルーティングエンジンはローカル ping に応答し、インターフェイスはアップしたままになるが、他のプロセスは応答しない状態になることがあります。

この状況から回復するために、ハードディスクエラーが発生したときに自動的に再起動するように単一のルーティングエンジンを設定できます。この機能を有効にするには、[edit chassis routing-engine]階層レベルでon-disk-failure rebootステートメントを含めます。

デュアルルーティングエンジン環境では、バックアップルーティングエンジンがプライマリルーティングエンジンでハードディスクエラーを検出した場合に、自動的にプライマリロールを引き受けるように設定できます。この機能を有効にするには、[edit chassis redundancy failover]階層レベルでon-disk-failureステートメントを含めます。このステートメントの詳細については、Junos OS高可用性ユーザーガイドを参照してください。

ルーティングエンジンでハードディスクに障害が発生した場合、ルーティングエンジンを(再起動せずに)停止するように設定できます。この機能を設定するには、[edit chassis routing-engine on-disk-failure]階層レベルでdisk-failure-action (halt | reboot)ステートメントを含めます。

ハードディスクに障害が発生したときにルーティングエンジンを停止するように設定するには、 halt オプションを使用します。再起動オプションを使用して、ハードディスクに障害が発生したときにルーティングエンジンが再起動するように設定します。

サーマルヘルスチェックとPSM Watchdogを使用したサーマルヘルスイベントの処理

温度ヘルスチェック機能を使用して、漏電などの熱ヘルスイベントの検出時に実行するアクションを構成できます。温度チェック機能は、PSM(電源モジュール)の電力出力と FRU の電力消費量を監視し、PSM の電力出力が FRU の電力消費量をユーザー定義のしきい値を超えて検出すると、熱状態イベントがあると見なし、ユーザーの設定に基づいてアクションを実行します。自動シャットダウンやアラームなどのアクションは、温度正常性イベントの検出時に開始されるように設定できます。設定の例は次のとおりです。 set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700。この構成例では、漏電が 700 W を超えた場合にソフトウェアが熱状態イベントを検出し、温度状態障害が検出されてから 10 秒後にシステムをシャットダウンできます。

サーマルヘルスチェック機能は、次の場合にのみ機能します。

ルーターでは、両方のスロットに大容量のACまたはDC配電ユニット(PDU)がインストールされており、各PDUのPSMの数は同じです。AC PSM と DC PSM の両方がサポートされています。

サポートされているPSMとPDUを以下に示します。
- 大容量AC PSM(型式:PSM2-PTX-AC、ファームウェア:0210以降、ハードウェアリビジョン:06以降)
- 大容量 60A DC PSM (型式:PSM2-PTX-DC、ファームウェア:0315 以降、ハードウェアリビジョン:09 以降)
- 大容量60A DC PDU(モデル:PDU2-PTX-DC、ファームウェアバージョン0404以降とハードウェアリビジョン07を使用、ファームウェアバージョン0503以降とハードウェアリビジョン08を使用)
- 大容量 AC デルタ PDU(モデル:PDU2-PTX-AC-D、ファームウェア:0305 以降、ハードウェアリビジョン:04 以降)
- 大容量 AC ワイ PDU(モデル:PDU2-PTX-AC-W、ファームウェア:0305 以上、ハードウェアリビジョン:03 以降)
- 大容量単相AC PDU(モデル:PDU2-PTX-AC-SP、ファームウェア:0102以降、ハードウェアリビジョン:03以降)
各PDUには少なくとも3つのオンラインPSMがあり、各オンラインPSMは60Aを超える電流(AC PSMの場合)または100Aを超える電流(DC PSMの場合)を消費しています。
FRU(RE、SIB、FPC)のいずれも「Present」状態ではありません。

ルーターでは、[editchassis]階層でPSMウォッチドッグ機能を設定することもできます。温度状態イベントによってJunosがダウンした場合、PSMウォッチドッグ機能がそれを検知し、ルーターをシャットダウンします。ウォッチドッグ構成では、ウォッチドッグタイマーを秒単位で指定できます。指定された期間が経過すると、ウォッチドッグの有効期限が切れます。Junosがウォッチドッグカウンターをリセットする頻度(分単位)を指定することもできます。ルーティングエンジンのクラッシュなどの理由でウォッチドッグカウンターがリセットされない場合、PSM はウォッチドッグタイマーの期限が切れた時点で出力電源をオフにし、それによってルーターをシャットダウンします。

構成例は次のとおりです。

set chassis psm watchdog timeout 600 pat-frequency 2を使用します。このコマンドは、ウォッチドッグタイマーを 600 秒に設定して PSM ウォッチドッグを有効にし、カウンタを 2 分ごとにリセットするように設定します。
set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10.を使用します。このコマンドは、サーマルヘルスチェックを有効にし、FET障害が検出されてから10秒後にシステムをシャットダウンします。

手記：

PSMウォッチドッグ機能は、ルーター内のすべてのオンラインPSMがこの機能をサポートしている場合にのみ機能します。

つまり、温度イベントが発生したときにルーティングエンジンソフトウェアが実行中の場合、温度ヘルスチェック機能が温度イベントを検知してアクションを実行します。ただし、ルーティングエンジンソフトウェアが熱状態イベントでダウンした場合、この問題を検出してシステムをダウンさせるのは PSM ウォッチドッグタイマーです。

変更履歴

サポートされる機能は、使用しているプラットフォームとリリースによって決まります。特定の機能がお使いのプラットフォームでサポートされているかどうかを確認するには、 Feature Explorer を使用します。

解放

形容

18.1R3

Junos OS リリース 18.1R3 以降、MXシリーズルーターは、エラーの範囲とエラーカテゴリレベルでのエラーしきい値とアクションの設定をサポートしています。

13.3

M320ルーターのJunos OS リリース 13.3またはリリース14.2以降、MXシリーズ、PTXシリーズ、T Seriesルーターを使用して、FPCのパケット転送エンジン(PFE)関連のエラーレベルと、指定したしきい値に達したときに実行するアクションを設定できます。