Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

マルチノード高可用性監視オプション

監視タイプ

高可用性障害検出は、システム、ソフトウェア、およびハードウェアの内部障害を監視します。また、インターフェイス監視、BFDパス監視、IP監視を使用して、ネットワーク接続の問題やリンク接続を監視し、遠くのターゲットへの到達可能性を検出することもできます。

表 1 は、マルチノード高可用性で使用されるさまざまな監視タイプの詳細を示しています。

検出
表 1:マルチノード高可用性監視タイプ
監視タイプタイプ スコープ とは
BFD監視 実際のリンクとともにリンク層を調べることで、ネクストホップへの到達可能性を監視します。
  • パス障害
  • リンク障害
  • ルーティング接続内の障害を検出します
  • 直接接続/ネクストホップ以外の障害を検出するためのものではありません。
IP 監視

直接接続されたインターフェイスまたはネクストホップの先にあるホストまたはサービスへの接続を監視します。

  • パス障害
  • リンク障害
  • より遠いホストまたはサービスで発生する障害を検出します。
  • 直接接続されたリンクで発生する障害やネクストホップの障害を検出するためのものではありません。
インターフェイス監視

リンク層が動作しているかどうかを調べます。

リンク障害
  • 直接接続されたリンクやネクストホップの障害や、遠く離れた場所にあるホストやサービスへの接続を検知します。
  • パスの監視用ではありません

マルチノード高可用性では、監視がホストまたはサービスへの接続障害を検出すると、影響を受けるパスをダウン/使用不可としてマークし、影響を受けるノードの対応するサービスルートグループ(SRG)を不適格としてマークします。影響を受けるSRGは、トラフィックを中断することなく、ステートフル方式で他のノードに移行します。

トラフィックが失われるのを防ぐために、マルチノード高可用性は次の予防措置を講じます。

  • レイヤー 3 モード - トラフィックが正しくリダイレクトされるようにルートが再描画されます
  • デフォルトゲートウェイまたはハイブリッドモード:SRGの新しいアクティブノードは、接続されたスイッチにGRP(Gratuitous ARP)を送信し、トラフィックの再ルーティングを確保します

マルチノード高可用性障害シナリオ

以下のセクションでは、考えられる障害シナリオ、すなわち、障害の検出方法、取るべき回復処置、および該当する場合は、障害によるシステムへの影響について説明します。

ノード障害

ハードウェア障害

  • 原因:ハードウェア コンポーネントの障害、または電源障害などの環境の問題。
  • 検出 - マルチノード高可用性
    • 影響を受けるデバイス/ノードにアクセスできません
    • ハードウェア障害が発生するノードで、SRG1 ステータスが INELIGIBLE に変わります。
  • 影響:図 1 に示すように、トラフィックは他のノード(正常な場合)にフェールオーバーします。.
    図 1: マルチノード高可用性Hardware Failure in Multinode High Availabilityにおけるハードウェア障害
  • 回復:シャーシ ハードウェアの障害をクリアすると、障害の回復が行われます(障害が発生したハードウェア コンポーネントの交換や修理など)。
  • 結果 - 以下のコマンドを使用してステータスを確認します。

システム/ソフトウェア障害

  • 原因:ソフトウェア プロセスまたはサービスの障害、またはオペレーティング システムの問題です。
  • 検出 - マルチノード高可用性
    • 影響を受けるデバイス/ノードにアクセスできません
    • システム/ソフトウェアに障害が発生した影響を受けるノードのシステム状態を INELIGIBLE に変更します。
  • 影響:図 2 に示すように、トラフィックが正常であれば他のノードにフェールオーバーします
    図2:マルチノード高可用性Software Failure in Multinode High Availabilityにおけるソフトウェア障害
  • 復旧—問題に対処すると、停止から自動的かつ適切に復旧します。アクティブな役割を引き継いだバックアップノードは、引き続きアクティブなままです。以前にアクティブだったノードはバックアップノードとして残ります。
  • 結果:コマンドを使用してステータスを show chassis high-availability information detail 確認します。

ネットワーク/接続障害

物理インターフェイス(リンク)障害

  • 原因:インターフェイスの障害は、ネットワーク機器の停止、物理ケーブルの中断、または一貫性のない設定が原因である可能性があります。
  • 検出 - マルチノード高可用性
    • 影響を受けるデバイス/ノードにアクセスできません。
    • ネットワーク障害または接続障害が発生している影響を受けるノードでは、SRG1 のステータスが INELIGIBLE に変わります(interface-monitor が設定されている場合)。また、BFDやIP監視でパス接続を検知し、設定されたアクションに基づいてイベントをトリガーすることもできます。
  • 影響—インターフェイスのリンク状態の変化により、フェイルオーバーがトリガーされます。バックアップ ノードがアクティブな役割を引き継ぎ、障害が発生したノードで実行されていたサービスは他のノードに移行されます ( 図 3 参照)。
    図 3:インターフェイス障害 Interface Failure
  • 設定—BFD監視とインターフェイス監視を設定するには、次の設定ステートメントを使用します。

    トラフィックフローに不可欠なすべてのリンクを監視する必要があります。

    設定の詳細については、 Checkout Example: Configure Multinode High Availability in a Layer 3 Network を参照してください。

  • 回復—障害が発生したインターフェイスを修復/交換すると回復します。ネットワーク/接続の障害が回復すると、SRG1 は INELIGIBLE 状態から BACKUP 状態に移行します。新しいアクティブノードは、アップストリームルーターにより良いメトリックをアドバタイズし続け、トラフィックを処理します。
  • 結果 - 以下のコマンドを使用してステータスを確認します。
  • インターフェイスの設定については、 レイヤー 3 ネットワークでのマルチノード高可用性の設定ハイブリッド展開でのマルチノード高可用性の設定、 デフォルト ゲートウェイ展開でのマルチノード高可用性の設定 インターフェイスのトラブルシューティングを参照してください。

シャーシ間リンク(ICL)障害

  • 原因:ICL の障害は、ネットワークの停止または一貫性のない設定が原因である可能性があります。
  • 検出:マルチノード高可用性では、ノードは相互に到達できず、アクティブネス決定プローブ(ICMPプローブ)を開始します。
  • 影響 - マルチノード高可用性システムでは、ICL はアクティブノードとバックアップノードを接続します。ICLがダウンすると、両方のデバイスがこの変化を認識し、アクティブネスプローブ(ICMPプローブ)を起動します。アクティブ性プローブは、各SRG1+に対してアクティブな役割を果たすことができるノードを決定するために行われます。プローブ結果に基づいて、ノードの 1 つがアクティブ状態に遷移します。

    図 4 に示すように、SRX-1 と SRX-2 の間の ICL がダウンしています。両方のデバイスが互いに到達できず、アップストリームルーターへのアクティブ性プローブの送信を開始できません。SRX-1はルーター設定のより高い優先パス上にあるため、アクティブな役割を果たしてトラフィックの処理を継続し、より優先されるパスをアドバタイズします。もう一方はバックアップの役割を担います。

    図 4: マルチノード高可用性ICL Failure in Multinode High Availabilityにおける ICL の障害
  • 設定—アクティブ性プローブを設定するには、次の設定ステートメントを使用します。

    設定の詳細については、 レイヤー 3 ネットワークにおけるマルチノード高可用性の設定 をご覧ください。

  • 結果 - 以下のコマンドを使用してステータスを確認します。
  • 回復:ノードの 1 つがアクティブなロールを引き継ぐと、マルチノード高可用性はコールド同期プロセスを再開し、コントロールプレーンサービス(IPSec VPN)を再同期します。SRG の状態情報は、ノード間で再交換されます。

ノードが分離された状態のままになる

  • 原因:マルチノード高可用性セットアップでは、次の場合、ノードは再起動後も分離された状態のままになり、関連するインターフェイスはダウンしたままになります。
    • ICL(シャーシ間リンク)は、起動後、コールド同期が完了するまで他のノードに接続できません

      そして

    • shutdown-on-failure オプションは SRG0 で設定します

      手記:

      上記の原因は、他のデバイスがサービス停止状態の場合にも発生する可能性があります。

  • 検出—SRG0ステータスがコマンド出力に ISOLATED として表示されます。
  • 回復—他のノードがオンラインになり、ICLがシステム情報を交換できるようになるか、 shutdown-on-failure ステートメントを削除して設定をコミットすると、ノードは自動的に回復します。

    ステートメントを削除するには、 delete chassis high-availability services-redundancy-group 0 shutdown-on-failure を使用します。

    上記の解決策が環境に適していない場合は、 install-on-failure-route オプションを使用できます。このオプションでは、マルチノード高可用性セットアップは、SRG1+で利用可能なアクティブシグナルルートおよびバックアップシグナルルートアプローチに類似したルーティングポリシーオプションを使用して、上記の状況をより優雅に処理するために定義された信号ルートを使用します。

柔軟なパス監視

Junos OS リリース 23.4R1 以降、以下の既存のパス監視機能に新たな拡張機能を追加しました。

  • IP 監視
  • BFD 監視
  • インターフェイス監視

この機能強化により、パス監視機能のきめ細かい制御が可能になります。

  • SRG1+ に加え、SRG0 の監視を拡張
  • 監視機能のグループ化
  • サービス冗長グループ(SRG)パスに関連する方向に基づく監視をサポートします
  • 各監視機能に関連する重みの追加

関連する機能をグループ化することで、システムがユニットとして処理できるため、より効率的な計算とリソース使用率につながります。

SRG 監視オブジェクト

次の図で、オブジェクトの監視の概念を理解できます。

図 5:SRG 監視オブジェクトの SRG Monitoring Objects

監視オプションは、サービス冗長グループごとに設定できます。つまり、SRG 内の特定の項目に障害が発生した場合、その SRG は他のノードにフェールオーバーできます。各 SRG には、1 つ以上の監視オブジェクトが含まれます。

監視オブジェクトで使用できる監視機能は、BFDライブ、インターフェイス監視、およびIP監視です。これらの各フィーチャには、閾値とウェイトの属性が関連付けられています。

モニター オブジェクト内では、IP/インターフェイス/BFD 監視の結果として特定のオブジェクトがフェイルオーバーのトリガーに失敗するたびに、システムはそのイベントを監視の失敗と見なします。ソフトウェアは、障害が発生したオブジェクトの重量に基づいてカウントを追加します。

カウントがIP/インターフェイス/BFDのしきい値を超えると、システムはそのカウントを親監視オブジェクトのしきい値に追加します。

SRG にバインドされたすべての監視オブジェクトのしきい値の合計が SRG に設定されたしきい値以上になると、システムはその SRG の監視失敗をトリガーします。SRG は他のノードにフェールオーバーします。

パス監視設定

図 6 に示すトポロジーについて、次の例を考えてみましょう。この設定では、ノード2デバイスでSRG1のパス監視オプションを構成しています。

図 6:パス監視設定のサンプル Path Monitoring Configuration Sample

この例では、パス監視オプションを設定します。

  • ICL(シャーシ間リンク)には集合型イーサネットインターフェイス(ae)を使用し、隣接するルーターとの接続にはxe-1/0/xインターフェイスを使用します。
  • 2つのモニターオブジェクト「network-A」と「network-B」を作成します。 ネットワークAネットワークB の両方のモニターオブジェクトには、SRXシリーズデバイスと隣接するルーター間で設定されたすべてのIPアドレスとインターフェイスが含まれています。
  • 隣接ルートを監視するようにBFDを設定します。
  • SRG1 に直接接続されていないルートを監視するために、IP 監視を設定します。
  • 直接接続されたリンクまたはネクストホップでインターフェイス監視を設定します。

次の表に、重みとしきい値の割り当て例を示します。

表 2: モニター オブジェクトの重みとしきい値(例)

オブジェクトの監視

BFDの

IP

インターフェイス

監視オブジェクトのしきい値

SRG しきい値

 

重量

重量

重量

ネットワークA

100

50

100

50 (10.10.10.1, 10.20.20.1, 10.30.30.1)

100

25(xe-1/0/1 および xe-1/0/2)

50 (ae0 および ae1)

100

100

ネットワークB

100

50

100

50 (10.11.11.1, 10.12.12.1, 10.13.13.1)

100

25(xe-1/0/3 および xe-1/0/4)

50 (AE2 および AE3)

200

手記:
  • SRG ごとに最大 10 個の監視オブジェクトを設定できます。
  • Junos OS 23.4 のように SRG 監視を設定する(SRG しきい値と監視オブジェクトを使用)か、Junos OS リリース 23.4R1 以前でサポートされているように監視オプションを設定できます。両方の構成スタイルを組み合わせることはできません。
  • モニターオブジェクトの設定は、SRG 0 および SRG1+ の場合と同じです。

設定例:

次の設定スニペットでは、SRGx(サービス冗長グループ)に network-Anetwork-B の 2 つのモニターオブジェクトが含まれています。これらの各監視オブジェクトには、IP監視、インターフェイス監視、BFD検出があり、それぞれの重みとしきい値が設定されています。

  • SRGのしきい値を設定します。
  • モニターオブジェクト network-Aを設定します。
    • モニター・オブジェクトのしきい値を設定します。
    • BFD 監視オプションを設定します。

    • IP監視の重みとしきい値を設定します。

    • インターフェイス監視の重みとしきい値を設定します。
  • モニターオブジェクト network-Bを設定します。

    • モニター・オブジェクトのしきい値を設定します。

    • モニターオブジェクトでBFD監視を設定します。

    • IP監視の重みとしきい値を設定します。

    • インターフェイス監視の重みとしきい値を設定します。

サンプルの network-B のmonitor-objectの場合を考えてみましょう。

システムのインターフェイス監視のしきい値は 100 で、メンバー インターフェイス(50、50、25、25)に重みが割り当てられています。重み 50 のインターフェイスがダウンした場合、インターフェイスの重み値(50)がカウントに追加され、インターフェイス監視のしきい値と比較されます。つまり、カウントは 50、インターフェイスしきい値は 100 です。カウントはインターフェイスのしきい値よりまだ小さいです。

重み 50 の別のインターフェイスがダウンした場合、カウントは 50 ずつ増加し、インターフェイス監視のしきい値と比較されます。これで、カウントはインターフェイスしきい値 100 と等しくなります。カウントがしきい値と等しい場合、システムはこの値(100)をモニターオブジェクト(ネットワークB)のカウントに追加します。monitor-object network-B のしきい値は 200 です。カウント (100) は、オブジェクト モニターのしきい値よりもまだ小さいです。

同様に、IP モニターまたは BFD モニターもそれぞれのしきい値に達し、オブジェクト モニターのカウントに追加されると、カウントがインクリメントされ、オブジェクト モニターのしきい値と比較されます。カウントがオブジェクトモニターのしきい値を抑制すると、システムはそのカウントをサービス冗長グループ(SRG-1)のカウントに追加します。network-A と network-B の両方のオブジェクトモニター数の合計が SRG-1 のしきい値を超えると、システムは別のノードへのフェイルオーバーをトリガーします。

監視オブジェクトの設定の確認

show chassis high-availability services-redundancy-group 1 または show chassis high-availability services-redundancy-group <id> monitor-object <name> コマンドを使用します。

以下の例は、 show chassis high-availability services-redundancy-group 1 コマンドの出力を示しています。

コマンド出力では、監視オブジェクト Network-BNetwork-Aの両方のステータスを確認できます。また、障害オブジェクトの詳細が、しきい値と重みとともに出力されていることにも気付くことができます。