クラスター フェイルオーバー パラメーターの設定
シャーシ クラスタ内の SRX シリーズ デバイスは、ハートビート送信を使用して制御リンクの「正常性」を決定します。見逃したハートビートの数が設定されたしきい値に達した場合、システムは障害状態が存在するかどうかを評価します。詳細については、以下のトピックを参照してください。
シャーシ クラスタ制御リンクのハートビート、障害、回復について
シャーシ クラスタ制御リンク ハートビートの理解
シャーシクラスタを設定する際に、ハートビートのしきい値とハートビート間隔を指定します。
デフォルトでは、システムが制御リンクのステータスを監視します。
SRX5600およびSRX5800回線でサポートされているデュアル制御リンクの場合、Juniper Services Redundancy Protocol プロセス(jsrpd)は、両方の制御リンクで制御ハートビート メッセージを送受信します。制御リンクの 1 つでハートビートを受信している限り、Junos OS はもう一方のノードが生きていると見なします。
オプションと オプションの heartbeat-threshold
積は、 heartbeat-interval
フェイルオーバーがトリガーされる前の待機時間を定義します。これらのオプションのデフォルト値は、3 秒の待機時間を生成します。ハートビートしきい値が 5 で、ハートビート間隔が 1000 ミリ秒の場合、待機時間は 5 秒になります。ハートビートしきい値を 4 に設定し、ハートビート間隔を 1250 ミリ秒に設定すると、待ち時間も 5 秒になります。
シャーシ クラスタ環境では、1,000 を超える論理インターフェイスが使用されている場合、クラスタ ハートビート タイマーをデフォルトの 3 秒から増やすよう推奨します。SRX4600、SRX5400、SRX5600、またはSRX5800 デバイスの最大容量は、フェイルオーバー前の設定時間を 5 秒以上に増やすことをお勧めします。
シャーシ クラスタ 制御リンクの障害と復旧について
制御リンクに障害が発生した場合、Junos OSはセカンダリノードの動作状態を180秒のカウントダウンの対象外に変更します。ファブリックリンクにも180秒の間に障害が発生した場合、Junos OSはセカンダリノードをプライマリに変更します。それ以外の場合、180 秒後にセカンダリ ノードの状態が無効に変わります。
制御リンクがダウンすると、システム ログ メッセージが生成されます。
制御リンク障害は、ファブリック・リンクを介してハートビートが受信されている間、制御リンク上でハートビートを受信しないこととして定義されます。
正当な制御リンクに障害が発生した場合、冗長性グループ0は、現在プライマリであるノード上でプライマリであり、プライマリノード上の非アクティブな冗長性グループ x がアクティブになり、セカンダリノードは無効な状態になります。
セカンダリ ノードが無効になっている場合でも、管理ポートにログインして診断を実行できます。
正規の制御リンク障害が発生したかどうかを判断するために、システムは制御リンクとファブリック リンクの両方で送信される冗長なライブライン信号に依存します。
システムは、ファブリック リンクとハートビート信号を介して制御リンクを介してプローブを定期的に送信します。プローブとハートビート 信号は、一意のタイム イベントにマップされる共通のシーケンス番号を共有します。Junos OS は、以下の 2 つの条件が存在する場合、正規の制御リンク障害を特定します。
ハートビートのしきい値数が失われました。
ハートビート信号の欠落に対応するシーケンス番号を持つ少なくとも1つのプローブが、ファブリックリンクで受信されました。
制御リンクに障害が発生した場合、180 秒のカウントダウンが開始され、セカンダリ ノードの状態は対象外になります。180秒のカウントダウンがゼロになる前にファブリックリンクに障害が発生した場合、両方のリンクの損失がシステムによって解釈され、他のノードが停止していることを示すため、セカンダリノードがプライマリになります。制御リンクとファブリック リンクの両方が同時に失われると、ノードが同期状態も優先度の比較もできなくなったため、両方のノードが一時的にプライマリになる可能性があり、これは安定した動作状態ではありません。ただし、制御リンクが再確立されると、優先度の高いノードが自動的にプライマリになり、もう一方のノードはセカンダリになり、クラスタは正常な動作に戻ります。
正規の制御リンク障害が発生した場合、以下の条件が適用されます。
リダンダンシー グループ 0 は、現在プライマリであるノード上でプライマリに残り(ルーティング エンジンはアクティブなまま)、ノード上のすべての冗長性グループ x はプライマリになります。
システムがどのルーティング エンジンがプライマリかを決定できない場合、冗長性グループ 0 の優先度値が高いノードがプライマリであり、そのルーティング エンジンがアクティブになります。(冗長性グループ 0 の ステートメントを設定する場合、
redundancy-group
各ノードの優先度を設定します)。システムはセカンダリ ノードを無効にします。
無効モードからデバイスを回復するには、デバイスを再起動する必要があります。無効化されたノードを再起動すると、ノードは動的状態をプライマリ ノードと同期します。
セカンダリ ノードが無効になっている間に設定を変更した場合、コミット コマンドを実行して、ノードを再起動した後に設定を同期します。設定を変更しなかった場合、設定ファイルはプライマリ ノードのファイルと同期されたままになります。
冗長グループ0のプリエンプションを有効にすることはできません。冗長性グループ0のプライマリノードを変更する場合は、手動フェイルオーバーを行う必要があります。
デュアルコントロールリンク(SRX5600およびSRX5800デバイスでサポート)を使用する場合、次の条件に注意してください。
ホストインバウンドまたはアウトバウンドトラフィックは、制御リンク障害時に最大3秒間影響を受ける可能性があります。例えば、冗長性グループ0がノード0でプライマリであり、ノード1のネットワークインターフェイスポートを介してルーティングエンジンへのTelnetセッションがある場合を考えてみましょう。現在アクティブな制御リンクに障害が発生した場合、Telnet セッションはこの障害が検出されるまで 3 秒間パケットを失います。
2 つのノードでコミット プロセスが実行されている間に発生する制御リンク障害が、コミット失敗につながる可能性があります。このような場合は、3 秒後にもう一度 commit コマンドを実行します。
SRX5600およびSRX5800デバイスでは、デュアルコントロールリンクには シャーシクラスタの各ノードに2番目のルーティングエンジンが必要です。
ステートメントを設定することで、制御リンクの回復をシステムによって自動的に control-link-recovery
実行することを指定できます。この場合、制御リンクが正常であるとシステムが判断すると、無効なノードで自動再起動を発行します。無効化されたノードが再起動すると、ノードは再びクラスタに参加します。
例:シャーシ クラスタ制御リンクの回復の設定
この例では、制御リンクリカバリーを有効にする方法を示しています。これにより、制御リンクが障害から回復した後にシステムが自動的に引き継がることができます。
要件
開始する前に、以下を行います。
シャーシ クラスタ制御リンクについて理解する。 シャーシ クラスタ コントロール プレーンと制御リンクについてを参照してください。
シャーシ クラスタ デュアル コントロール リンクについて理解する。 シャーシ クラスタ デュアル コントロール リンクについてを参照してください。
シャーシ クラスタ内のデュアル コントロール リンクを接続します。 シャーシクラスタ内のSRXシリーズファイアウォールのデュアルコントロールリンク接続を参照してください。
概要
システムが制御リンクの回復を自動的に実行できるようにすることができます。制御リンクが回復すると、システムは以下のアクションを実行します。
制御リンクで少なくとも3つの連続したハートビートを受信するか、またはデュアル制御リンク(SRX5600およびSRX5800デバイスのみ)の場合は、いずれかの制御リンクで受信するかどうかを確認します。これは、制御リンクがフラッピングではなく、正常であることを確認するためです。
制御リンクが正常であると判断された後、制御リンクに障害が発生した場合、ノードの状態(対象外または無効)に関係なく、システムは自動再起動を発行します。ノードが再起動すると、クラスタに再び参加できます。手動操作は必要ありません。
この例では、シャーシ クラスタ制御リンクの回復を有効にします。
構成
手順
手順
シャーシ クラスタの制御リンク回復を有効にするには:
制御リンクの回復を有効にします。
{primary:node0}[edit] user@host# set chassis cluster control-link-recovery
デバイスの設定が完了したら、設定をコミットします。
{primary:node0}[edit] user@host# commit