Marvis Actions:バックエンド運用に関するインサイト
Marvisが主要な問題を特定し、それらをMarvisアクションとして分類するために使用する要因を詳しく見ていきます。
Marvisは、イベントや実用的なインサイトのネットワークを事前にスキャンします。Marvisは、統計データとイベントから得たデータを使用して、接続前と接続後の両方のエクスペリエンスにおいて、有線、WAN、無線接続に関連するユーザーに影響を与える問題を特定します。Marvisは、効果の高いアクションを強調し、根本原因分析を自動化することで、解決/無実の平均時間(MTTR/MTTI)の短縮をサポートします。
Marvis Actionsはアラートに置き換わるものではありません。アラートは、ポートアップやポートダウンなどのイベントが発生するとリアルタイムでトリガーされます。アラートの詳細については、「 アラートの概要」を参照してください。

用語集
| 用語 | 定義 |
|---|---|
| モデル入力機能 | 特定のアクションを生成するための条件が満たされているかどうかを判断するためにモデルが使用する入力または特徴量。 |
| トリガー条件 | モデルがMarvisアクションを作成するようにトリガーする条件。 |
| 検証時間 | MarvisがオープンなMarvisアクションを解決済みとしてマークするのにかかった時間。ユーザーが問題を修正した可能性があります。または、症状が観察されなくなった場合もあります。 |
レイヤー1アクション
| Marvis Action | モデル入力 | 機能トリガー条件 | 検証時間 |
|---|---|---|---|
| ケーブル不良 | AP、スイッチ、またはWANエッジ統計、イベント | 監視期間中の速度変化、ポートで報告されたエラー、スイッチポートのリンクがアクティブであるがトラフィックが通過しない、頻繁な切断と再起動(APのみ)。 | 7日間 |
接続アクション
| Marvis Action | モデル入力 | 機能トリガー条件 | 検証時間 |
|---|---|---|---|
| 認証失敗 | 有線および無線クライアント | 予測されたベースラインからの偏差。LSTM ベースのモデルは、サイト全体の認証成功または失敗イベントのベースラインを設定します。 モデルは、問題の重大度を考慮して、このMarvisアクションを生成します。重大度とベースラインからの偏差が高いほど、観測された時間内にこのアクションを生成するモデルの信頼性が高くなります。 |
1日 |
| DHCP 障害 | 有線および無線クライアント | 予測されたベースラインからの偏差。LSTM ベースのモデルは、サイト全体の DHCP(ダイナミック ホスト構成プロトコル)の成功または失敗イベントのベースラインを設定します。 モデルは、問題の重大度を考慮して、このMarvisアクションを生成します。重大度とベースラインからの偏差が高いほど、観測された時間内にこのアクションを生成するモデルの信頼性が高くなります。 |
1日 |
| ARP障害 | 有線および無線クライアント | 予測されたベースラインからの偏差。LSTMベースのモデルは、サイト全体のアドレス解決プロトコル(ARP)の成功または失敗イベントのベースラインを設定します。 モデルは、問題の重大度を考慮して、このMarvisアクションを生成します。重大度とベースラインからの偏差が高いほど、観測された時間内にこのアクションを生成するモデルの信頼性が高くなります。 |
1日 |
| DNS障害 | 有線および無線クライアント | 予測されたベースラインからの偏差。LSTM ベースのモデルは、サイト全体のドメイン ネーム システム (DNS) の成功または失敗イベントのベースラインを作成します。 モデルは、問題の重大度を考慮して、このMarvisアクションを生成します。重大度とベースラインからの偏差が高いほど、観測された時間内にこのアクションを生成するモデルの信頼性が高くなります。 |
1日 |
ワイヤレスアクション
| Marvis Action | モデル入力 | 機能トリガー条件 | 検証時間 |
|---|---|---|---|
| オフライン | AP統計情報 | 1 つの AP または複数の AP がローカルにアップまたはダウンしています(クラウド接続が失われる場合のみ)。 このモデルは、APがダウンしている原因(つまり、問題がスイッチ、サイト、地域、またはISPの障害によるものかどうか)を特定するために関連付けます。 デバイスがオフラインになったときに通知を受け取る場合は、デバイスのアップまたはダウンイベントに関するインフラストラクチャアラートを設定し、しきい値を指定します。 |
15分 |
| ヘルスチェックに失敗しました | AP統計情報 | 自動回復後も、APまたは無線が動作不能になることが繰り返される。 |
30日間 |
| 非準拠 | AP統計情報 | AP または複数の AP のファームウェア バージョンと、[サイト設定] で構成されたバージョン コンプライアンス設定のファームウェア バージョンの違い。 |
30分 |
| カバレッジホール | APとクライアントの統計情報 | 影響の大きいエリアで1台または複数のAPに関連するすべてのクライアントから報告された低APが繰り返し発生するSLEベースラインの異常。 このモデルでは、屋外APまたは建物の出入口に設置されたAPの場合、問題の再発とフリンジパターン認識を考慮しています。 モデルでは、異常の強さを考慮して、ユーザーに影響を与えるカバレッジホールの問題を示すMarvisアクションを生成します。異常指数が強い場合、モデルは異常指数が弱い場合よりも早くアクションを生成します。このモデルは、データの複数のバッチを調べて、カバレッジホールの問題がないかAPを特定します。 |
7日間 |
| 容量不足 | APとクライアントの統計情報 | 季節性に左右されない、繰り返しおよび長期にわたる容量制約を伴うAPによって引き起こされるベースラインの異常。 このモデルは、異常の強さを考慮に入れ、ユーザーに影響を与える容量の問題を示すMarvisアクションを生成します。異常指数が強い場合、モデルは異常指数が弱い場合よりも早くアクションを生成します。このモデルは、データの複数のバッチを調べて、APの容量に問題がないかを特定します。 |
7日間 |
| APループが検出されました | APイベント | 設定ミスまたは設定ミスが原因で発生したネットワークループによってトリガーされるAPのリフレクションイベント。 リフレクションイベントは、APが同じVLANまたは異なるVLANで送信したパケットを受信したときに発生します。 リフレクションイベントは、サイトイベントのほぼ直後に生成されるため、生の統計ベースの追跡のためにこれらのイベントを監視できます。 |
30分 |
有線アクション
| Marvis Action | モデル入力 | 機能トリガー条件 | 検証時間 |
|---|---|---|---|
| VLANの欠落 | APポート統計情報 | VLANが欠落しているAPによって報告されたアップリンクポートの統計情報。 このアクションは、2つ以上のAPからのデータを関連付けて、クライアントが使用しているアクティブなVLANがAPポートで欠落しているかどうかを判断しますAP。この関連付けにより、サイト全体のクライアントがVLANを使用していない場合に VLAN欠 落アクションの生成を防ぐことができます。 |
30分 |
| ネゴシエーションが未完了 | 個々のスイッチポート統計情報 | スイッチポートで自動ネゴシエーション失敗が報告されました。 |
最大60分 |
| MTU不一致 | 個々のスイッチポート統計情報 | スイッチポートと接続デバイス間のMTU不一致。報告された統計情報は、ポートのエラーを示しています。 モデルでは、Marvisアクションを生成するまでに重大度と時間が考慮されます。MTU不一致が大きいほど、重大度が高くなり、Marvisアクションの生成が速くなります。 |
1日 |
| ループが検出されました | スイッチポートイベント | 意図的または意図せずトポロジーにループが導入され、スパニングツリープロトコル(STP)トポロジーが急激に繰り返し変更される。 モデルは、STPトポロジー変更イベントを入力特徴量として使用し、重大度と時間を考慮します。各期間におけるSTPトポロジー変更の頻度が高いほど、検出は速くなります。 または、ループが遅いペースでイベントを長時間発生させる場合も、Marvisアクションがトリガーされます。 |
30分 |
| ネットワークポートフラップ | スイッチポートイベント(トランクポートのみ) | トランク ポートとして設定されたポートでの一貫したポート バウンス。 モデルでは、頻度と時間が考慮されます。ポートフラップの頻度が高いほど、問題の重大度が高くなります。長時間発生する低速ポートフラップの場合、モデルは数時間または数日以内にポートフラップを検出します。 |
30分 |
| CPU使用率が高い | スイッチシャーシの統計情報 | 監視期間中、平均CPU使用率が常に90%を超えている。 モデルでは、問題の頻度と期間が考慮されます。監視対象データセット内のすべてのサンプルの平均CPU使用率が高いことを示す統計は、ユーザーに影響を与える重大な問題を示しています。モデルは、このような問題に対してMarvisアクションを迅速に生成します。 |
30分 |
| ポートのスタック | スイッチポート統計情報 | アクセス ポート上のエンド デバイスのトラフィック パターンの急激な逸脱。 このモデルは、季節性トラフィックパターンの繰り返しに対して誤検知を生成しません。また、類似したエンドポイント間のトラフィックパターンも考慮して推論します。 . このMarvisアクションは自動運転です。 ポートのスタック 問題が検出されると、ポートは自動的にバウンスされ、エンドポイントを再び運用可能です。 モデルは、自動ポートバウンス後にエンドポイントが運用に戻れない場合、またはポートスタックの問題が複数回再発した場合にのみ、アクションを生成します。 . |
30分 |
| トラフィック異常 | スイッチポート統計情報 | 予測されたトラフィックパターンからのブロードキャストおよびマルチキャストフレームカウンターの逸脱。 このモデルは、数日おきに各スイッチまたはスイッチポートのトラフィックパターンのベースラインを設定します。このアクションは、 長短期記憶 (LSTM) ベースのモデルを使用します。 モデルは、問題の重大度に基づいてこのMarvisアクションを生成します。監視期間全体にわたって続く大きな偏差の場合、モデルはアクションを迅速に生成します。モデルでは、軽微で長期にわたる逸脱に対するアクションが生成されるまでに時間がかかる場合があります。 |
1日 |
| ポートの設定ミス | アップリンク スイッチ ポート統計情報 | 識別されたアップリンク ポート間の MTU、VLAN、モード、または二重の不一致。 このモデルは、エッジでのスイッチとスイッチの接続の不一致を特定します。 |
60分 |
WANアクション
| Marvis Action | モデル入力 | 機能トリガー条件 | 検証時間 |
|---|---|---|---|
| MTU不一致 | WANエッジ統計情報 | WANエッジポートと接続デバイス間のMTU不一致。モデルは、ポートの特定のエラーを示す報告された統計情報を調べます。 モデルでは、このMarvisアクションを生成するまでに重大度と時間が考慮されます。MTU不一致が大きいほど、重大度が高くなり、アクションは特定の時間内に生成されます。 |
30分 |
| 不良 WAN アップリンク | WANエッジのアップリンクポート | 高遅延、パケットドロップ、輻輳、ARPやDHCPなどのネットワークサービス障害がWANポート統計で報告され、ベースライン動作の変化を示しています。 重大度が高いと判断された問題は、重大度の低い問題よりも早くリストされます。 |
1日 |
| VPNパスダウン | VPNトンネルまたはピアパス | 以下のいずれかのパスでピアパスダウンの問題:
すべてのポートアップまたはポートダウンシナリオでアラートを受け取る必要がある場合は、生アラート用の重要なポート監視アラートを購読します。 重大度が高いと判断された問題は、重大度の低い問題よりも早くリストされます。 |
1時間 |
| 非準拠 | SRXシリーズファイアウォール | プライマリパーティションとバックアップパーティションのJunos OSバージョンの違い。 |
30分 |
その他のMarvis Actions
| Marvis Action | モデル入力 | 機能トリガー条件 | 検証時間 |
|---|---|---|---|
| 頻繁に問題が発生しているクライアント | 有線および無線クライアント | クライアントが認証とネットワークへの接続に継続的に失敗する。監視期間中、持続的な障害が継続的に観察されます。 トリガー時間は、サイト、つまりクライアントの数と相関する同時障害によって異なります。 |
60分 |
| アクセスポートフラップ | スイッチ上のアクセスポート | アクセス ポートとして設定されたポートの一貫したポート アップまたはポート ダウン イベント。 モデルでは、問題の頻度と期間が考慮されます。ポートフラップの頻度が高いほど、問題の重大度が高くなります。長時間発生する低速ポートフラップの場合、モデルは数時間または数日以内にポートフラップを検出します。 |
30分 |