Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

ストライプおよび鉄道交通可視性プローブ

紹介

レールに最適化されたストライプアーキテクチャでは、GPUバックエンドファブリックがGPUがAIクラスター内で通信するためのインフラストラクチャを提供します。詳細については、「GPU バックエンド ファブリック」を参照してください。

GPUバックエンドファブリックのインフラストラクチャは、AI大規模言語モデル(LLM)トレーニングなど、需要の高いAIワークロードに最適です。GPUバックエンドファブリックの主な目標の1つは、AIワークロード完了の速度と効率に影響を与えるため、ロスレスのGPU間通信を提供することです。つまり、ストライプ全体にまたがるリアルタイムおよび過去のトラフィックフローデータを一元的に表示することが不可欠であるということです。

バージョン6.0では、Stripe & Rail Traffic Probeと呼ばれるストライプ認識のレール認識プローブが導入され、レール最適化ネットワークのトラフィック分析を提供します。

ストライプおよびレールトラフィックプローブの概要

プローブは以下を実行します。

  • 2つの部分に分かれたストライプの一部であるリーフのトラフィックデータを収集します。

    • GPUサーバーに面したインターフェイスカウンター
    • スパインに面したインターフェイスカウンター
  • ストライプ内トラフィックとストライプ間トラフィックを計算し、レールとストライプのトラフィックの不均衡を検出します。

ダッシュボード:ストライプとレールトラフィックの概要

Stripe &; Rail Traffic Summaryダッシュボードと関連するプローブは、Rail-Optimizedブループリントをシステムが検出すると自動的に作成されます。ダッシュボードはプローブをデータソースとしてインスタンス化し、各ストライプのリアルタイムで集約されたトラフィック概要を通じてこの情報を視覚化します。ストライプとレールレベルで、リアルタイムおよび過去のトラフィックデータとトラフィック異常を表示できます。


次の図では、Rail Aggregated Rx Traffic Imbalanceウィジェットに、Rail ID 5の「ai_stripe_001」のRXトラフィック異常が表示されていることがわかります。これらの異常は、異なるリンクを介して送信されるトラフィック量の差が「レールの不均衡しきい値」パラメーターを超えた場合に発生します。ステージ の表示 ボタンをクリックすると、異常に関する詳細情報のプロセッサーステージを表示できます。


Rail Aware Traffic Analytics

バージョン6.0は、レール対応の交通分析ダッシュボードを提供します。ウィジェットは、選択したレールに対して特化したデータをフィルタリングします。次の図は、"properties.stripe_id" プロパティに基づくフィルター条件を示しています。

これにより、ダッシュボードにネットワークファブリックの最新状態が反映されます。



All Stripes Traffic Summaryダッシュボードは、動的に生成されるダッシュボードです。ブループリントに2つ以上のストライプが存在すると自動的にこのダッシュボードが作成され、この条件が無効になると自動的に削除されます。


バージョン 6.0 では、Stripe Traffic Summary と呼ばれる自動スケーリングダッシュボードもサポートされています。このダッシュボードは、ブループリントに存在するストライプに基づいてダッシュボードインスタンスの数を自動的に調整します。ストライプが削除されると、対応するストライプインスタンスもダッシュボードから削除されます。

以下の画像では、リアルタイムのトラフィックメトリクスを示すストライプインスタンスが、ブループリントに存在する各ストライプに対して生成されています。

ストライプ1


ストライプ2