有線アクション
アクションダッシュボードを使用して、スイッチに影響する問題を解決します。
アクションダッシュボードの有線ボタンをクリックすると、使用可能なすべてのアクションのリストが表示されます。その後、アクションをクリックしてさらに調査できます。使用可能なアクションについては、このトピックの後半で説明します。

サブスクリプションによって、アクションダッシュボードに表示されるアクションが決まります。詳細については、「 Marvis Actionsのサブスクリプション要件」を参照してください。
VLANの欠落
VLANが見つからないアクションは、VLANがAP上に設定されているが、スイッチポート上では設定されていないことを示しています。その結果、クライアントは特定のVLAN上で通信できず、DHCPサーバーからIPアドレスを取得できなくなります。Marvisは、APトラフィックとクライアントVLANトラフィック上のVLANをスイッチポートトラフィック上のVLANと比較し、VLAN設定が欠落しているデバイスを判断します。
スイッチには、ジュニパー EXシリーズまたはQFXシリーズスイッチ、またはサードパーティ製スイッチのいずれかを選択できます。
次の例では、VLAN設定が欠落しているために受信トラフィックが表示されないAPをMarvisが識別します。また、MarvisはVLAN設定に欠落している特定のスイッチを特定し、ポート情報を提供するため、この問題を簡単に軽減できます。

VLANが欠落しているアクションが表示された場合は、クライアントインサイトページのクライアントイベントセクションに移動し、報告されたVLANに関連する障害を確認できます。そのVLANに接続しているすべてのクライアントでDHCP障害が発生しているかどうかを確認できます。
Marvis Minisを有効にしている場合、ネットワーク内にVLANが欠落している可能性のある問題がMarvisによって特定されると、検証が自動的に開始されます。Marvis Minisは、疑わしいVLANパスに沿った接続を検証して、VLANが欠落しているかどうかを確認し、問題が発生している可能性のある場所を特定します。[ View More ]リンクには、次の例に示すように、Marvis Minis検証の詳細が表示されます。

[Ask Marvis]オプションをクリックすると、Marvisの対話型インターフェイスが自動的に表示され、問題の詳細な分析が表示されます。これには、問題の概要、考えられる根本原因、現在のステータス、Minis検証の結果が含まれます。また、フォローアップの質問をして、特定の側面を深く掘り下げることもできます。

さらに情報が必要な場合は、左側のメニューを使用してスイッチページにアクセスすることもできます。そこでスイッチをクリックすると、VLANを含む各ポートの情報が表示されます。

ネットワークの問題を修正した後、Mist AIはスイッチを一定期間監視し、VLANの欠落問題が実際に解決されていることを確認します。
VLANの欠落アクションの詳細については、以下のビデオをご覧ください。
Missing VLANs is a two-decade-old networking problem. It sounds so simple, but in a large enterprise it can become the ghost in the machine, as users complain their calls always drop in a certain area and conventional wisdom is, well, there must be interference or Wi-Fi issues over there. In many cases when Mist support helped troubleshoot, we found a user VLAN was indeed not provisioned on the network switch.
Hence, the user had no place to roam and the call dropped. For customers with tens of thousands of APs, this truly becomes the needle in the haystack problem. At Mist, we wanted to use AI to solve this problem, but first let's take a look at how you might start out today.
You can manually take a look, but I only have two VLANs. Or you can programmably take a look, but this makes my brain hurt. If an AP is connected to a switch port, but the user can't get an IP address or pass any traffic, then the VLAN probably isn't configured on the port or it's black holed.
The traditional way to measure a missing VLAN is to monitor traffic on the VLAN and if one VLAN continuously lacks traffic, then there's a high chance that the VLAN is missing on the switch port. The problem of this approach is false positives. Here you can see during a 24-hour window, we detected more than 33,000 APs missing one or more VLANs because they had little or no traffic, but this was not accurate as we learned that every VLAN is not created equal.
There are at least two types of special purpose VLANs that can cause detection problems. One is the black hole VLAN. Folks can create a black hole VLAN on all unconfigured ports or as a quarantine VLAN for users until they are fully authorized. This VLAN is supposed to be provisioned on the switch in case a quarantined user shows up on the AP. The second example is the over-provisioned VLAN. Larger customers use special VLANs for special sites.
For example, legacy devices might only be present at certain sites, so special VLAN should only be applicable to those sites, but because people do use automation, they want to keep their configurations consistent so they provision that VLAN across all the sites. In this case, you would expect low traffic or no traffic. Those VLANs shouldn't be flagged as missing because they were intentionally over-provisioned.
So the key for reducing false positives is to really identify the purpose of each VLAN. We could ask the customer for their own internal list, perhaps in the form of a spreadsheet, but that's very error prone. MIST developed an unsupervised machine learning model to automatically discover the purpose of each VLAN by learning from the traffic patterns on the VLANs.
In this graph, each dot represents all of the VLANs across the MIST customer base. So for each VLAN, we collect several features. How many APs lack traffic on that VLAN? How many sites lack traffic? How busy is that VLAN minute by minute from all the APs? Then we use another technique called principal component analysis to combine all of these features and map them into this two-dimensional space.
The interesting thing here is the different VLAN types, high traffic, low traffic, black hole, and over-provisioned are separated really well, even across different customers, because it turns out VLAN behavior is very similar across different customers. The beauty of this is instead of developing per customer anomaly detection tools, we actually built one model for everybody. So for any new customers, we don't have to ask them anything.
We can determine the purpose of their VLANs very quickly after they deploy. This is really the power of this multi-tenant infrastructure design. Every customer can benefit from the knowledge learned from our extended customer base.
By precisely identifying each VLAN's purpose, we reduced our initial detection rate from 33,000 plus to specifically 607 VLANs, which we believed were actually missing from the AP switch ports. For MIST, this was the moment of truth. When we were confident in the model, we contacted the customers with these 607 detected missing VLANs, and when we finally heard back, we had an astonishing 100% hit rate, no false positives.
For MIST, this was simply awesome, as there are so many mundane problems we can apply this technique to going forward. So right now, this is shown in Marvis Actions, and with a supported Juniper switch, we can provide the user specific CLI commands that we suggest they add to their config to get these missing VLANs going, with a goal to automatically doing this from the cloud as we gain their trust. And for non-Juniper switches, we give detailed info like which switch, which port, and which VLAN ID to guide them how to solve the problem that they probably didn't even know they had.
This is all built on open protocols like OpenConfig and NetConf. And lessons learned by the MIST data science team, AI solutions should first start by solving real problems, rather than deploying models and hoping for the best. Some AI vendors treat AI as a hammer in search of a nail, and this isn't going to work.
The Marvis AI engine was designed starting with human expertise and then learning over time. At MIST, each support ticket is first run through Marvis to both measure its efficacy and continue to train the model to solve the most important customer issues.
ネゴシエーションが未完了
ネゴシエーション不完全アクションは、自動ネゴシエーションエラーが発生するスイッチポート上のインスタンスを検出します。この問題は、自動ネゴシエーションが正しい二重モードを設定できなかったために、デバイス間の二重不一致をMarvisが検出した場合に発生する可能性があります。Marvisは、影響を受けるポートに関する詳細を提供します。ポートと接続されたデバイスの設定を確認して、問題を解決できます。
以下の例は、ネゴシエーション未完了アクションの詳細を示しています。Marvisに、自動ネゴシエーションに失敗したスイッチとポートが一覧表示されます。

ネットワークの問題を修正すると、「ネゴシエーション未完了」アクションは1時間以内に自動的に解決されます。
MTU不一致
Marvisは、スイッチのポートと、そのスイッチポートに直接接続されているデバイスのポートとの間のMTUの不一致を検出します。同じレイヤー 2(L2)ネットワーク上のすべてのデバイスの MTU サイズは同じである必要があります。MTU不一致が発生すると、デバイスがパケットをフラグメント化してネットワークオーバーヘッドが発生する可能性があります。
問題を解決するには、スイッチと接続されているデバイスのポート設定を確認する必要があります。Marvisが特定したMTU不一致の例を次に示します。 詳細列 には、不一致が発生したポートが一覧表示されます。

ループが検出されました
ループ検出アクションは、ネットワーク内のループにより、スイッチが送信したのと同じパケットを受信することを示します。ループは、デバイス間に複数のリンクが存在する場合に発生します。冗長リンクは、L2ループの一般的な原因です。冗長リンクは、プライマリ リンクのバックアップ リンクとして機能します。両方のリンクが同時にアクティブで、STP(スパニングツリープロトコル)などのプロトコルが正しく導入されていない場合、スイッチングループが発生します。
Marvisは、サイト内でトラフィックループが発生している正確な場所を特定し、影響を受けたスイッチを表示します。以下に例を示します。

スイッチングループは、スイッチインサイトページのスイッチイベントの下にリストされています。次の例では、STPトポロジーの変更がリストされていることがわかります。

ネットワークポートフラップ
ネットワークポートフラップアクションは、少なくとも1時間持続的にバウンスするトランクポートを特定します。たとえば、1 時間、毎分 3 回のフラップです。トランク ポートとして設定されたポートは、個々のトランク ポートとして、またはポート チャネルの一部として、他のスイッチ、ゲートウェイ、AP に接続するために使用されます。ポートフラッピングは、ケーブルやトランシーバーの不良が一方向トラフィックやLACPDU交換を引き起こしたり、ポートに接続されたエンドデバイスが継続的に再起動したりすることで発生することがあります。次の例は、Marvis Actionsがネットワークポートフラップアクションに対して提供する詳細を示しています。
ポートアップおよびポートダウンイベントは、スイッチインサイトページのスイッチイベントで確認できます。Marvisは、フラッピング頻度が増加しない限り、遅いポートフラップをアクションとしてリストしません。Marvisは引き続きポートフラッピングの遅さを監視して、問題の重大度を判断します。バタつきが過度になった場合、Marvisは頻度と重症度を考慮した上で、それをアクションとしてリストアップします。対話型アシスタントを使用して、遅いポートフラップの詳細を表示できます。
アクセスポートフラップの詳細については、 アクセスポートフラップを参照してください。
永続的にフラッピングしているポートは、Marvis Actionsページから直接無効にできます。ネットワークポートフラップアクションセクションで、ポートを無効にするスイッチを選択し、 ポートの無効化 ボタンをクリックします。
ポートの無効化ページが表示され、無効にできるポートが一覧表示されます。ポートがすでに無効になっている場合は選択できません(以前は[アクション]ページから、または[スイッチの詳細]ページから手動で)。
ポートを無効にすると、選択したポートのポート設定が無効に変わり、ポートがダウンします。問題を修正した後、スイッチの詳細ページでポート設定を編集することで、これらのポートを再度有効にできます。ポートを再度有効にした後、デバイスをポートに再接続できます。
ネットワークの問題を修正すると、ポートフラップアクションは1時間以内に自動的に解決されます。
Looking at the switch, in this case, specifically the Juniper switch, we've introduced the action of a port flapping continuously. In this case, we do take into account a simple port down and up, which usually happens when a device connects, and this is currently reflecting a case where the port is continuously flapping, thereby not only causing a poor experience for the device which is connected on the other end, but also having high resource consumption for the switch which can be detrimental to other devices connected on the switch. Here too, we show all the required information in terms of the port, the client which is connected, and the VLAN, if in case it did communicate and we know the VLAN ID.
CPU使用率が高い
Marvisは常にCPU使用率が高い(>90%)スイッチを検出します。CPU使用率が高くなる原因は、マルチキャストトラフィック、ネットワークループ、ハードウェアの問題、デバイスの温度など、さまざまな要因です。高CPUアクションには、スイッチ、スイッチで実行されているプロセス、CPU使用率、使用率が高い理由が一覧表示されます。次の例では、fxpc プロセスの CPU 使用率が高く、使用率が高い原因はスイッチに非認定の光インターフェイスを使用していることがわかります。

高CPUアクションが表示された場合は、スイッチのインサイトページに移動し、スイッチチャートの下にあるCPU使用率チャートを分析できます。以下に例を示します。

ポートのスタック
ポートスタックアクションは、スイッチのアクセスポートのトラフィックパターンの違い(送受信パケットがないなど)を検出し、ポートに接続されているクライアントが正常に動作していないことを示します。次の例では、Marvis Actionsがポートをバウンスしてクライアントが正常に動作を開始するかどうかを確認することを推奨していることがわかります。Marvisには、ポート番号に加えて、ポートに接続されているクライアント(この場合はカメラ)と、関連するVLANも一覧表示されます。

Marvisがポートのスタック問題を検出すると、問題を解決するために自動ポートバウンスを開始します。自動ポートバウンスで問題が解決しない場合、Marvisはそれをアクションとしてリストします。次の例に示すように、スイッチインサイトページのスイッチイベントで自動バウンスアクションを確認できます。右側のグラフは、ポートバウンス前後のトラフィックを示しています。ポートがバウンスされる前は、Txトラフィックのみが表示されます(緑色で示されています)。ポートバウンスの後、Rxトラフィックも見られることがわかります。
ポートスタックアクションの自動運転機能は、デフォルトで有効になっています。自動運転機能の詳細については、「 Self-Driving Marvis Actions」を参照してください。

トラフィック異常
Marvisは、スイッチ上のブロードキャストおよびマルチキャストトラフィックの異常な減少または増加を検出します。また、異常に高い送信エラーまたは受信エラーも検出します。接続障害の異常検出ビューと同様に、詳細ビューにはタイムライン、異常の説明、影響を受けたポートの詳細が表示されます。問題がサイト全体に影響を与える場合、Marvisは影響を受けた各スイッチの詳細とポートの詳細を表示します。

Marvis, our AI-powered virtual network assistant, employs an actions framework to automatically identify network problems and anomalies that are likely impacting user experience. This helps you to significantly reduce mean time to resolution. Marvis can detect switched traffic anomalies, such as traffic storms or abnormal high TxRx count, with respect to broadcast, unknown, unicast, or multicast traffic.
It uses our third generation of algorithms, including long short-term memory, or LSTM for short, to boost efficacy and eliminate false positives. Visit the link below to learn more.
ポートの設定ミス
スイッチが別のスイッチに接続されている場合、通信にはポート上の共通プロパティが必要です。設定ミスを検出するために、Marvisはアップリンクポートの以下のプロパティを比較します。
-
スピード
-
デュプレックス
-
ネイティブVLAN
-
許可されたVLAN
-
MTU
-
ポートモード(両方のポートが「アクセス」または両方のポートが「トランク」)
-
STPモード(両方のポートが「フォワーディング」)
アクションダッシュボードで、 スイッチ>設定ミスポート をクリックすると、画面の下部に問題と推奨アクションが表示されます。
さらに 表示 リンクをクリックすると、MACアドレスとポートが表示されます。
オフラインに切り替える
Marvisは、ジュニパーMistクラウドから切断されたスイッチを検出します。スイッチは、次のようなさまざまな理由でオフラインになることがあります。
-
電源の問題
-
ケーブルの故障
-
必要なファイアウォールポートが開いていません
-
誤った設定
スイッチがオフラインになると、Marvisがスイッチを監視して、オフライン状態の持続時間を確認します。スイッチが3分以上オフラインになると、Marvisはスイッチオフラインアクションを生成します。スイッチがオフラインになるとすぐに、スイッチインサイトページにあるスイッチオフラインインフラストラクチャアラートとイベントが表示されることに注意してください。
以下に、Marvisをオフラインに切り替えるアクションを示す例を示します。さらに 表示 リンクをクリックすると、オフラインのスイッチの詳細が表示されます。スイッチ名をクリックすると、インサイトページが表示され、スイッチイベントの下にリストされているイベントが表示されます。
オフラインのスイッチのトラブルシューティングについては、 スイッチ接続のトラブルシューティングを参照してください。
不正DHCPサーバーが検出されました
不正DHCPサーバー検出アクションは、DHCPスヌーピングが有効になっているEXシリーズスイッチ上の不正なDHCPサーバーをMarvisが特定するとトリガーされます。不正なDHCPサーバーを早期に検知することは不可欠です。それは、以下の原因によって通常のネットワーク運用を中断する可能性があるためです。
-
間違ったサブネットからIPアドレスを割り当て、デバイスが不適切なネットワークまたはルーティング不能なネットワークに接続する原因
-
内部リソースやインターネットへのアクセスに失敗するなど、ランダムまたは断続的な接続の問題を引き起こす
Marvisは、次の条件が満たされた場合にこのアクションを生成します。
-
不明なサーバーからのDHCPオファーを監視する
-
イベントを特定のスイッチ、ポート、VLAN、またはサイトにマッピングします
-
不正なDHCPアクティビティが繰り返し発生することを観察し、これが1回限りの異常ではなく、対処が必要な継続的な問題であることを確認
不正DHCPサーバーが検出されたMarvisアクションは、自動運転アクションです。デフォルトでは、アクションの自動運転機能は無効になっています。
このアクションで自動運転機能を有効にした場合、Marvisは不正DHCPサーバーが使用するスイッチポートを自動的に無効にします。 これは、アクセス ポートにのみ適用されることに注意してください。
自動運転が無効になっている場合は、 ポートを無効にするボタン をクリックして、ポートを手動で無効にできます。
自動運転機能とその有効化方法については、「Self-Driving Marvis Actions」を参照してください。

さらに表示リンクをクリックすると、不正サーバーのMACアドレス、イベント数、不正サーバーのイベントのタイムラインを示すグラフなどの詳細が表示されます。スイッチインサイトページからのイベントも表示されます。

[Ask Marvis]オプションをクリックすると、Marvisの対話型インターフェイスが自動的に表示され、問題の詳細な分析が表示されます。これには、問題の概要、考えられる根本原因、推奨事項、不正サーバーイベントのタイムライン、およびスイッチインサイトページからの関連イベントが含まれます。また、フォローアップの質問をして、特定の側面を深く掘り下げることもできます。
