デバイスとインターフェイスの正常性を自動的に監視し、異常を検知

このトピックでは、Routing Director がデバイスの健全性を自動的に監視して異常を検出する方法と、GUI を使用してデバイスの健全性に関連する異常を表示する方法について説明します。

デバイスとインターフェイスの正常性監視と異常検知の概要

手記：

デバイスの正常性と異常検知は、このリリースのベータ機能です。
デバイスの健全性を監視するには、ルーティングディレクタークラスタのインストール時に AI/ML(install-aiml)とデバイス健全性モニタリング(enable-device-health)を有効にする必要があります。詳細については、「クラスターのデプロイ」を参照してください。

AI/MLを有効にするには、追加のシステムリソース(CPUとメモリ)が必要になります。AI/MLに必要なその他のリソースについては、ハードウェア要件を参照してください。

ネットワークの状態を確認するには、ネットワーク内のデバイスとそのインターフェイスの状態を監視する必要があります。Routing Directorは、AI/ML(AI:人工知能\ [AI]および機械学習 [ML])技術を使用して、デバイスの健全性に関連するKPI(主要パフォーマンス指標)を自動的に監視し、発生した異常を自動的に検出します。また、ルーティング・ディレクターは、デバイスが動作しているときに、デバイスの温度異常の根本原因分析(RCA)も実行します。

デバイスのヘルスステータスを定期的に監視し、デバイスとインターフェイスのヘルス異常をタイムリーに検出することで、事業者は対策を講じ、発生した問題の影響を最小限に抑えることができます

ルーティングディレクターは、以下のシナリオでデバイスの健全性を監視します。

デバイスのオンボーディング中—デバイスがオンボーディング中、ルーティングディレクターはデバイスの健全性を監視し、異常が発生した場合にはアラートを生成します。

デバイスがオンボーディングされる際、以前にオンボーディングされた同じモデルの他のデバイスが存在する場合、ルーティングディレクターはデータを比較して異常を検出します。ただし、特定のモデルのデバイスが初めてオンボードされる場合、履歴データが不足しているため、異常検知の有効性は制限されます。
デバイスの運用中—デバイスが正常にオンボーディングされ、管理された後、ルーティングディレクターは、デバイスの健全性に関連するKPIを継続的に監視します。ルーティングディレクターは、各デバイスの各KPIについて、KPIを監視し、範囲を予測し、異常が発生した場合には検出します。デバイスの動作中、Routing Director は、そのデバイスの履歴データと予測範囲に基づいて、デバイスの正常性の異常を(30 分以内に)検出します。

手記：

検証フェーズでは、デバイスの正常性監視に使用される ML モデルの MAPE スコアは 2.5 から 6.5 の間で変化することが観察されました。
KPI 値が変更された後、予測範囲が安定するまでに約 2 時間かかります。

温度異常のRCA
デバイスの健全性 KPI

温度異常のRCA

デバイスが動作している場合、ルーティング・ディレクターは、ルーティングエンジンの温度とルーティングエンジンのCPU温度に関連する問題のRCAを提供します。ルーティング・ディレクターは、温度問題を引き起こす可能性のあるさまざまな属性(CPU使用率、ファン回転率、吸気温度)を分析します。また、ルーティング・ディレクターは、デバイスの温度を予想範囲と比較します。分析と比較に基づいて、ルーティング・ディレクターはアラート、問題の予想される理由、および問題を引き起こした可能性のあるイベントの詳細を提供します。図1 は、ルーティングエンジン温度の異常に関するRCAログを示すサンプルページを示しています。

図1:デバイスの温度異常 Line graph showing temperature from March 22-28 with thresholds at 100°C Critical and 95°C High. March 26, 44°C; CPU alert 50°C outside 30.77-55.57°C range.

Line graph showing temperature from March 22-28 with thresholds at 100°C Critical and 95°C High. March 26, 44°C; CPU alert 50°C outside 30.77-55.57°C range.

のRCAを示すサンプルページ

—

デバイス温度RCAの詳細

デバイスの健全性 KPI

表 1 は、ルーティングディレクターが各デバイスについて監視するデバイスの健全性 KPI を示しています。

表 1:デバイスの健全性に関連する KPI
KPI	コンポーネントパラメータ
CPU	ルーティングエンジンラインカード	CPU 使用率 (%)
記憶	ルーティングエンジンラインカード	メモリ使用率(%)
扇	該当なし	RPM の割合(%)
温度	ルーティングエンジン(RE) ルーティングエンジンCPU ラインカードラインカードCPU	現在の温度

表 2 は、ルーティングディレクターが各インターフェイスについて監視するインターフェイスの健全性に関連する KPI を示しています。

表 2:インターフェイスの健全性に関連する KPI
KPI	の説明
光インターフェイス Rx 電力光インターフェイスのTxパワー	現在の光インターフェイスパワーレベル(dBm)。
入力トラフィック出力トラフィック	現在のトラフィック(Mbps)。
光/モジュール温度	現在の光学系温度(°C)。

GUIでデバイスとインターフェイスの正常性異常を表示する

[ Device-Name ] ページの [ハードウェア(Hardware)] アコーディオンで、デバイスのデバイスの正常性異常を表示および監視できます。

デバイスの正常性異常を表示および監視するには、次の手順を実行します。

次のいずれかの操作を行います。
- デバイスのオンボーディング中に、デバイスの健全性とインターフェイスの健全性の異常を表示および監視するには、[ インベントリ(Inventory > Device Onboarding)] > [オンボーディングダッシュボード(Onboarding Dashboard)] > [デバイスをサービス> Device-Nameにする(Put Devices into Service )] を選択します。
- デバイスの動作中にデバイスの正常性とインターフェイスの正常性の異常を表示および監視するには、[ デバイスのトラブルシューティング(Observability > Troubleshoot Devices)] > Device-Name を選択します。
[ Device-Name ] ページが表示されます。
表示するには:
- [デバイスの正常性] で、[ハードウェア] アコーディオンまでスクロールし、[ > ] をクリックしてアコーディオンを展開します。
  - アコーディオンのシャーシセクションには、ルーティングディレクターが監視する以下のKPIのヘルスステータスが表示されます。
    - ファン
    - CPU
    - ラインカード
    - 記憶
    - 温度
  - デバイスイベントは [関連イベント] の下に表示され、次の情報が表示されます。
    - イベント通知メッセージ
    - ルーティング・ディレクターが最後のイベントを受信した日時。
- [Interface health] で、[Interface] アコーディオンまでスクロールし、[ > ] をクリックしてアコーディオンを展開します。以下のKPIを表示できます。
  - プラガブルの光温度、光 Tx 電力、光 Rx 電力
  - 入力トラフィック
  - 出力トラフィック
  - インターフェイスイベントは、[関連イベント(Relevant Events)] の下に次の情報とともに表示されます。
    - イベント通知メッセージ
    - ルーティング・ディレクターが最後のイベントを受信した日時。
カーソルを合わせるか [ 詳細の表示 ] をクリックすると、イベントの詳細 (イベントが繰り返された回数など) が表示されます。
(オプション)[関連するすべてのイベントの表示(View All Relevant Events)] をクリックして、デバイスのすべてのヘルス関連イベントを表示します。

イベントが [ Device-Name のイベント] ページに表示されます。
次の手順を実行することで、デバイスまたはインターフェイスの正常性に関連する各 KPI の詳細情報を表示できます。
1. KPI の正常性状態リンク ([ファン(Fans)] や [温度(Temperature)] など)をクリックします。
  
  [ Device-Name のハードウェアの詳細] ページが表示され、前のページでクリックした KPI のセクションが表示されます。
  
  たとえば、[Fans] のリンクをクリックすると、[Fans] セクションが展開され、ファンに関連するグラフが表示されます。
  
  図 2 は、[Hardware Details for Device-Name] ページのサンプルセクション ([Temperature]) を示しています。
  
  インターフェイスの場合は、KPI のステータスリンクをクリックします。たとえば、[入力トラフィック(Input Traffic)] や [出力トラフィック(Output Traffic)] ページが表示され、KPI に関連するグラフが表示されます。たとえば、[Input Traffic] リンクをクリックすると、[Input Traffic details for Device-Name ] ページが開き、入力トラフィックに関連するグラフとアラート(存在する場合)の詳細が表示されます。図は、入力トラフィックのグラフの例を示しています。
  
  インターフェイスに関連するグラフやKPIの詳細については、インターフェイスデータとテスト結果を参照してください。
2. 異常の詳細を表示するには、グラフ上の黄色の三角形のアイコンをクリックします。
  
  異常の詳細がポップアップに表示されます(ハードウェアの場合は図 2 、インターフェイスの場合は図を参照)。
「閉じる」または「X」アイコンをクリックして、「Device-Name」ページに移動します。

For more information on the hardware accordion, see Hardware Data and Test Results and on interface accordion, see Interfaces Data and Test Results.

Figure 2: Sample Hardware Details for Device-Name Page Graph showing fan speed monitoring in a system with fan list, critical thresholds, and alerts for performance issues.

Graph showing fan speed monitoring in a system with fan list, critical thresholds, and alerts for performance issues.

1 — KPI	5 — High threshold marker
2 — Circle icons indicating that the KPI is normal	6 — Pop-up showing details of device health anomaly.
3 — Upper and lower boundaries (dynamic thresholds) for the data displayed in the graph	7 — Triangle icons indicating an anomaly when the higher threshold is breached.
4 — Critical threshold marker	8 — Legend showing the colors for different sub-components used in the graphs

Figure shows the input traffic through et-0/0/1 interface on a device during a 30 minute interval. A warning (indicated by the yellow triangle icon) is raised to indicate an anomaly in the projected input traffic rate,

Figure 3: Input Traffic Page Showing Anomalies in measured Input Traffic

A KPI value is considered:

Anomalous if the KPI value is outside the dynamic threshold (shaded area of the map) for nine consecutive intervals or nine minutes of data collection.
Normal if the KPI value falls within the dynamic threshold for three consecutive intervals of data collection.

If the KPI value continues to be outside the dynamic threshold for more than nine consecutive intervals, the dynamic threshold adapts to the new values and a new dynamic threshold is created. An alert is raised if the KPI value crosses the High or Critical values irrespective of whether the value falls within the dynamic threshold or not.

項目一覧

デバイスとインターフェイスの正常性を自動的に監視し、異常を検知

デバイスとインターフェイスの正常性監視と異常検知の概要

温度異常のRCA

デバイスの健全性 KPI

GUIでデバイスとインターフェイスの正常性異常を表示する

参照