シャーシクラスター内のグローバルレベルオブジェクトの監視
Feature Explorerを使用して、特定の機能に対するプラットフォームとリリースのサポートを確認します。
プラットフォームに関連する注意事項については、「 プラットフォーム固有のモニタリング オブジェクトの動作 」セクションを参照してください。
シャーシ クラスタとして設定されたデバイスで作業する際に監視するオブジェクトには、グローバルレベルのオブジェクトや冗長性グループに固有のオブジェクトなど、さまざまなタイプがあります。この項では、グローバル・レベル・オブジェクトの監視について説明します。
SPU の監視について
SPU 監視は、SPU と中央点(CP)の正常性を追跡します。各SPCのシャーシマネージャーは、SPUと中央点を監視し、シャーシ化されたルーティングエンジンでハートビートを維持します。この階層型監視システムでは、chassisd がハードウェア障害検知の中心となります。SPU 監視はデフォルトで有効になっています。
ノード上の永続的なSPUと中央点の障害は、致命的なパケット転送エンジン(PFE)の障害と見なされます。この場合、冗長グループ x の優先度を0に下げることで、ノードのPFEはクラスターで無効になります。
中央点に障害が発生すると、セカンダリ ノードへのフェイルオーバーがトリガーされます。すべてのSPCとすべてのI/Oカード(IOC)を含む、障害が発生したノードのPFEは、自動的に再起動されます。セカンダリの中心点にも障害が発生した場合、プライマリデバイスがないため、クラスタは起動できません。データ プレーン(冗長グループ x)のみがフェイルオーバーされます。
単一の SPU で障害が発生すると、冗長グループ x がセカンダリ ノードにフェイルオーバーされます。障害が発生したノード上のすべての IOC と SPC が再起動され、冗長グループ x がセカンダリ ノードにフェイルオーバーされます。セカンダリ ノードへのフェールオーバーは自動的に行われ、ユーザーの介入は必要ありません。障害が発生した(以前の)プライマリ ノードで障害が発生したコンポーネントが復元された場合、フェイルバックは冗長グループ x のプリエンプト設定によって決定されます。デッド SPU 検出の間隔は 30 秒です。
このイベントはアラームをトリガーし、新しい現場交換可能ユニット(FRU)が必要であることを示します。
フロー監視の理解
フロード監視は、フロードプロセスの正常性を追跡します。Flowd監視はデフォルトで有効になっています。
ノードでの永続的なフロー障害は、致命的なパケット転送エンジン(PFE)障害と見なされます。この場合、冗長グループ x の優先度を0に下げることで、ノードのPFEはクラスターで無効になります。
フローされたプロセスに障害が発生すると、冗長グループ x がセカンダリノードにフェイルオーバーされます。セカンダリ ノードへのフェールオーバーは自動的に行われ、ユーザーの介入は必要ありません。障害が発生した(以前の)プライマリ ノードで障害が発生したコンポーネントが復元された場合、フェイルバックは冗長グループ x のプリエンプト設定によって決定されます。
ローカル ノードで SPC および flowd 監視が失敗すると、データプレーン冗長性グループ RG1+ は、良好な状態の他のノードにフェールオーバーします。ただし、コントロールプレーンRG0はフェイルオーバーせず、障害発生前と同じノード上でプライマリのままです。
コールド同期監視について
SPU または flowd の起動時にデータ プレーン ランタイム オブジェクト (RTO) を同期するプロセスは、 コールド同期と呼ばれます。すべての RTO が同期されると、コールド同期プロセスが完了し、必要に応じて、ノード上の SPU またはフローがプライマリ ノードに引き継ぐ準備が整います。ノード上のすべての SPU またはフローのコールド同期状態を監視するプロセスは、 コールド同期監視と呼ばれます。プリエンプションが有効になっている場合、コールド同期監視により、SPU のコールド同期プロセスが完了するか、ノードでフローされるまで、ノードがプライマリロールを引き継ぐことが防止されることに注意してください。コールド同期監視は既定で有効になっています。
ノードが再起動されたとき、または SPU や flowd が障害から復帰したとき、すべての冗長グループ 1+ の優先度は 0 になります。SPU または flowd が起動すると、もう一方のノードでミラー SPU または flowd を使用してコールド同期プロセスを開始しようとします。
これがクラスタ内の唯一のノードである場合、新しいノードがクラスタに加入するまで、すべての冗長グループ 1+ の優先度は0のままです。プライオリティは 0 ですが、デバイスはそのインターフェイスを介してトラフィックを送受信できます。優先度 0 は、障害が発生した場合にフェールオーバーできないことを意味します。新しいノードがクラスターに参加すると、すべての SPU または flowd が起動すると、既存のノードのミラー SPU または flowd とのコールド同期プロセスが開始されます。
すでに稼働しているノードの SPU または flowd が、ピアノードの SPU または flowd からのコールドシンク要求を検出すると、コールドシンクプロセスが完了したことを示すメッセージをシステムに投稿します。新しく参加したノードの SPU または flowd は、同様のメッセージをポストします。ただし、このメッセージは、すべての RTO が学習され、コールド同期が完了した後にのみ投稿されます。すべてのSPUまたはフローから完了メッセージを受信した後、インターフェイスなどの監視対象コンポーネントに他に障害がない場合、冗長グループ 1+ の優先度は各ノードで設定された優先度に移動します。このアクションにより、冗長 性 1+ グループの既存のプライマリノードが、常に設定された優先度に最初に移動します。クラスターに参加しているノードは、すべての SPU またはフローがコールド同期プロセスを完了した後にのみ、後で設定された優先順位に移動します。このアクションにより、新しく追加されたノードがプライマリロールを引き継ぐ前に、すべてのRTOの準備が整っていることが保証されます。
SPU の交換または拡張によるコールド同期監視について
SRX5600ファイアウォールまたはSRX5800ファイアウォールが シャーシクラスターの一部である場合、デバイス上のサービス処理カード(SPC)をSPC2またはSPC3に置き換える場合、すべての冗長性グループを1つのノードにフェイルオーバーする必要があります。
このシナリオでは、次のイベントが発生します。
SPC2 がノード(ノード 1、セカンダリ ノードなど)にインストールされると、SPC2 をインストールできるようにノード 1 がシャットダウンされます。
ノード 1 の電源がオンになってクラスターに再参加すると、ノード 1 の SPU の数は、プライマリ ノードであるノード 0 の SPU の数よりも多くなります。現在、1 つのノード(ノード 0)には古い SPC があり、もう 1 つのノードには新しい SPC2 があります。SPC2 にはカードごとに 4 つの SPU があり、古い SPC にはカードごとに 2 つの SPU があります。
コールド同期プロセスは、ノード 0 の合計 SPU 番号に基づきます。ノード 0 の SPU に対応するノード 1 の SPU がコールド同期を完了すると、ノード 1 はコールド同期の完了を宣言します。ノード 1 の追加の SPU には、対応するノード 0 の SPU がないため、同期するものはなく、ノード 0 からノード 1 へのフェールオーバーでは問題は発生しません。
SPU 監視機能は、すべての SPU を監視し、SPU の障害が発生した場合に報告します。
例えば、両方のノードにもともと2つの既存のSPCがあり、ノード1で両方のSPCをSPC2に置き換えたとします。これで、ノード0に4つのSPUがあり、ノード1に8つのSPUがあります。SPU 監視機能は、ノード 0 の 4 つの SPU とノード 1 の 8 つの SPU を監視します。これら8つのSPUのいずれかがノード1で失敗した場合でも、SPU監視はSPU障害があることをJuniper Services Redundancy Protocol(jsrpd)プロセスに報告します。jsrpdプロセスは、シャーシクラスタリングを制御します。
ノード 1 のフェールオーバーの準備ができたら、ノード 1 へのすべての冗長グループのフェールオーバーを手動で開始できます。ノード0はシャットダウンされ、SPCがSPC2に置き換えられます。交換後、ノード0とノード1はまったく同じハードウェア設定になります。
ノード 0 の電源がオンになり、クラスタに再参加すると、システムは通常のシャーシ クラスタとして動作します。
シャーシクラスターのSRXシリーズファイアウォールでコールド同期プロセスがまだ進行中で、制御リンクがダウンしている場合、ノードがセカンダリ状態からプライマリ状態に移行するまでに(30秒の)遅延が予想されます。
プラットフォーム固有の 監視オブジェクト の動作
Feature Explorerを使用して、特定の機能に対するプラットフォームとリリースのサポートを確認します。
次の表を使用して、プラットフォームでのプラットフォーム固有の動作を確認します。
プラットホーム |
差 |
---|---|
SRX シリーズ |
|