Marvis Actions:バックエンド運用に関するインサイト
Marvisが重要な問題を特定し、それらをMarvisのアクションとして分類するために使用する要素を詳しく見てみましょう。
Marvisがプロアクティブにネットワークをスキャンして、イベントや実用的なインサイトを探します。Marvisは、統計とイベントからのデータを使用して、接続前と接続後の両方のエクスペリエンスについて、有線、WAN、無線接続に関するユーザーに影響を与える問題を特定します。Marvisは、有効性の高いアクションを強調し、根本原因分析を自動化することで、平均解決時間(MTTR)と平均調査時間(MTTI)を短縮します。
なお、Marvis Actionsはアラートに取って代わるものではありません。アラートは、ポートのアップやダウンイベントなどのイベントが発生すると、リアルタイムでトリガーされます。アラートの詳細については、「 アラートの概要」を参照してください。
用語集
用語 | の定義 |
---|---|
モデル入力機能 | 特定のアクションを生成するための条件が満たされているかどうかを判断するためにモデルが消費する入力または特徴。 |
トリガー条件 | モデルがMarvisアクションを作成するきっかけとなる条件。 |
検証時間 | Marvisが未解決のMarvisアクションを解決済みとしてマークするのにかかった時間。ユーザーが問題を修正した可能性があります。または、症状が見られなくなる可能性があります。 |
レイヤー 1 アクション
Marvisアクション | モデル入力機能 | トリガー条件 | 検証時間 |
---|---|---|---|
不良ケーブル | AP、スイッチ、または WAN Edge 統計、イベント | 監視対象期間中の速度変更、ポートで報告されたエラー、スイッチポートリンクはアクティブだがトラフィックは通過していない、頻繁な切断と再起動(APのみ)。 | 7日間 |
接続アクション
Marvisアクション | モデル入力機能 | トリガー条件 | 検証時間 |
---|---|---|---|
認証失敗 | 有線および無線クライアント | 予測ベースラインからの偏差。LSTM ベースのモデルは、サイト全体の認証の成功または失敗イベントのベースラインを設定します。 このモデルでは、問題の重大度が考慮され、このMarvisアクションが生成されます。重大度とベースラインからの偏差が高いほど、観測された期間内にこのアクションを生成するモデルの信頼度が高くなります。 |
1日 |
DHCP 障害 | 有線および無線クライアント | 予測ベースラインからの偏差。LSTMベースのモデルは、サイト全体の動的ホスト構成プロトコル(DHCP)の成功または失敗イベントのベースラインを設定します。 このモデルでは、問題の重大度が考慮され、このMarvisアクションが生成されます。重大度とベースラインからの偏差が高いほど、観測された期間内にこのアクションを生成するモデルの信頼度が高くなります。 |
1日 |
ARP 障害 | 有線および無線クライアント | 予測ベースラインからの偏差。LSTMベースのモデルは、サイト全体のアドレス解決プロトコル(ARP)の成功または失敗イベントのベースラインを設定します。 このモデルでは、問題の重大度が考慮され、このMarvisアクションが生成されます。重大度とベースラインからの偏差が高いほど、観測された期間内にこのアクションを生成するモデルの信頼度が高くなります。 |
1日 |
DNS 障害 | 有線および無線クライアント | 予測ベースラインからの偏差。LSTM ベースのモデルは、サイト全体のドメイン生成アルゴリズム (DNS) の成功または失敗イベントをベースライン化します。 このモデルでは、問題の重大度が考慮され、このMarvisアクションが生成されます。重大度とベースラインからの偏差が高いほど、観測された期間内にこのアクションを生成するモデルの信頼度が高くなります。 |
1日 |
AP アクション
Marvisアクション | モデル入力機能 | トリガー条件 | 検証時間 |
---|---|---|---|
オフライン | AP の統計情報 | 1 台または複数の AP がローカルでアップまたはダウンしている(クラウド接続の損失のみ)。 モデルは相関して、APがダウンしている原因、つまり、問題の原因がスイッチ、サイト、地域、またはISPの停止のいずれであるかを特定します。 デバイスがオフラインになったときに通知を受け取る場合は、デバイスのアップまたはダウンイベントに対してインフラストラクチャアラートを設定し、しきい値を指定します。 |
15分 |
ヘルスチェックの失敗 | AP の統計情報 | APまたは無線は、自動回復後も繰り返し動作不能なままです。 |
30日間 |
非準拠 | AP の統計情報 | 1 つまたは複数の AP のファームウェア バージョンと、サイト設定で構成されたバージョン コンプライアンス設定のファームウェア バージョンの違い。 |
30分 |
カバレッジホール | APとクライアントの統計情報 | 影響の大きいエリアの 1 つの AP または複数の AP に関連するすべてのクライアントから繰り返し低い RSSI が報告されたことが原因で、SLE ベースラインの異常。 このモデルでは、屋外APや建物の出入り口に設置されたAPの場合、問題の再発とフリンジパターン認識を考慮します。 このモデルでは、異常の強さを考慮して、ユーザーに影響を与えるカバレッジホールの問題を示すMarvisアクションが生成されます。異常指数が強い場合、モデルは異常指数が弱い場合よりも速くアクションを生成します。このモデルは、複数のデータのバッチを検証して、カバレッジホールの問題がないかAPを特定します。 |
7日間 |
容量不足 | APとクライアントの統計情報 | 季節性ではない容量制約が繰り返し長期化するAPによって引き起こされるベースラインの異常。 このモデルでは、異常の強さを考慮して、ユーザーに影響を与える容量の問題を示すMarvisアクションが生成されます。異常指数が強い場合、モデルは異常指数が弱い場合よりも速くアクションを生成します。このモデルは、データの複数のバッチを検証して、容量の問題がないかAPを特定します。 |
7日間 |
AP ループが検出されました(AP ループが検出されました) | APイベント | 設定ミスや設定不正が原因で発生したネットワークループによりトリガーされたAPでのリフレクションイベント。 リフレクションイベントは、APが送信したパケットを同じVLANまたは異なるVLANで受信したときに発生します。 リフレクション イベントは、サイト イベントのほぼ直後に生成されるため、これらのイベントを監視して、生の統計ベースの追跡を行うことができます。 |
30分 |
スイッチアクション
Marvisアクション | モデル入力機能 | トリガー条件 | 検証時間 |
---|---|---|---|
VLANの欠落 | AP ポートの統計情報 | VLAN が欠落している AP によって報告されたアップリンク ポートの統計情報。 このアクションは、2 つ以上の AP からのデータを関連付けて、クライアントが使用するアクティブな VLAN が AP ポートにないかどうかを判断します。この相関関係は、VLANがサイト全体のどのクライアントによっても使用されていない場合に、 Missing VLAN アクションが生成されるのを防ぐのに役立ちます。 |
30分 |
ネゴシエーションが未完了 | 個々のスイッチ ポートの統計情報 | スイッチポートで自動ネゴシエーションの失敗が報告されました。 |
最大60分 |
MTU不一致 | 個々のスイッチ ポートの統計情報 | スイッチポートと接続されたデバイス間のMTU不一致。報告された統計情報は、ポートのエラーを示しています。 このモデルでは、Marvisアクションを生成する重大度と時間が考慮されます。MTU不一致が大きいほど重大度が高くなり、Marvisアクションの生成が速くなります。 |
1日 |
ループ検出 | スイッチ ポート イベント | 意図的または非意図的にトポロジーにループが導入され、スパニングツリープロトコル(STP)トポロジーの変更が急速かつ反復される。 このモデルでは、STP トポロジ変更イベントを入力特徴量として使用し、重大度と時間を考慮します。各期間におけるSTPトポロジー変更の頻度が高いほど、検出は速くなります。 また、より遅いペースで長時間イベントを発生させるループも、Marvisアクションをトリガーします。 |
30分 |
ネットワークポートフラップ | スイッチ ポート イベント(トランク ポートのみ) | トランク ポートとして設定されたポートでの一貫したポート バウンス。 モデルでは、頻度と時間が考慮されます。ポート フラップの頻度が高いほど、問題の重大度が高くなります。長時間発生する遅いポートフラップの場合、モデルは数時間または数日以内にポートフラップを検出します。 |
30分 |
CPU 使用率が高い | スイッチ シャーシの統計情報 | 監視対象期間中の平均 CPU 使用率が一貫して 90% を超えている。 モデルでは、問題の頻度と期間が考慮されます。監視対象データセットのすべてのサンプルの平均 CPU 使用率が高いことを示す統計は、ユーザーに影響を与える重大な問題を示しています。このモデルは、このような問題に対してMarvisアクションを迅速に生成します。 |
30分 |
ポートのスタック | スイッチ ポートの統計情報 | アクセス ポート上のエンド デバイスのトラフィック パターンの突然の逸脱。 このモデルでは、繰り返される季節的なトラフィックパターンに対して誤検知は生成されません。また、推論のために類似したエンドポイント間のトラフィックパターンも考慮されます。 . このMarvisのアクションは自動運転です ポート スタックの問題が検出されると、ポートは自動的にバウンスされ、エンドポイントが再び運用可能になります。 このモデルでは、ポートの自動バウンス後にエンドポイントが動作を再開できない場合、またはポートのスタックの問題が複数回再発した場合にのみ、アクションが生成されます。 . |
30分 |
トラフィック異常 | スイッチ ポートの統計情報 | 予測されたトラフィックパターンからのブロードキャストおよびマルチキャストフレームカウンターの偏差。 このモデルは、各スイッチまたはスイッチポートのトラフィックパターンのベースラインを数日ごとに設定します。このアクションでは、 長短期記憶 (LSTM) ベースのモデルを使用します。 このモデルは、問題の重大度に基づいてこのMarvisアクションを生成します。監視対象期間全体にわたって続く強い偏差の場合、モデルはアクションを迅速に生成します。モデルでは、マイナーで長期的な偏差に対するアクションの生成に時間がかかる場合があります。 |
1日 |
ポートの構成ミス | アップリンク スイッチ ポートの統計情報 | 識別されたアップリンク ポート間の MTU、VLAN、モード、またはデュプレックスの不一致。 このモデルでは、エッジにおけるスイッチとスイッチ間の接続の不一致が特定されます。 |
60分 |
WANエッジアクション
Marvisアクション | モデル入力機能 | トリガー条件 | 検証時間 |
---|---|---|---|
MTU不一致 | WANエッジの統計情報 | WANエッジポートと接続されたデバイス間のMTU不一致。このモデルは、ポートの特定のエラーを示す報告された統計情報を調べます。 このモデルでは、このMarvisアクションを生成する重大度と時間が考慮されます。MTU不一致が大きいほど重大度が高くなり、アクションは特定の期間内に生成されます。 |
30分 |
WANアップリンクの不良 | WAN Edge のアップリンク ポート | 高遅延、パケットドロップ、輻輳、ARPやDHCPなどのネットワークサービス障害がWANポート統計で報告され、ベースライン動作の変化を示しています。 重大度の高い問題と判断された問題は、重大度の低い問題よりも早く一覧表示されます。 |
1日 |
VPN パス ダウン | VPN トンネルまたはピア パス | 以下のパスのいずれかでピアパスがダウンしている問題:
すべてのポート アップまたはポート ダウンのシナリオでアラートを取得する必要がある場合は、生アラートのクリティカル ポート監視アラートをサブスクライブします。 重大度の高い問題と判断された問題は、重大度の低い問題よりも早く一覧表示されます。 |
1時間 |
非準拠 | SRXシリーズファイアウォール | プライマリ パーティションとバックアップ パーティションでの Junos OS バージョンの違い |
30分 |
その他のMarvis Actions
Marvisアクション | モデル入力機能 | トリガー条件 | 検証時間 |
---|---|---|---|
頻繁に問題が発生しているクライアント | 有線および無線クライアント | クライアントがネットワークの認証と接続に失敗し続ける。監視期間中、持続的な障害が継続的に観察されます。 トリガー時間は、サイト、つまり、クライアントの数と相関する同時障害によって異なります。 |
60分 |
アクセス ポート フラップ | スイッチのアクセス ポート | アクセス ポートとして設定されたポートの一貫したポート アップまたはポート ダウン イベント。 モデルでは、問題の頻度と期間が考慮されます。ポート フラップの頻度が高いほど、問題の重大度が高くなります。長時間発生する遅いポートフラップの場合、モデルは数時間または数日以内にポートフラップを検出します。 |
30分 |