ストライプおよび鉄道交通可視性プローブ
紹介
レールに最適化されたストライプアーキテクチャでは、GPUバックエンドファブリックがGPUがAIクラスター内で通信するためのインフラストラクチャを提供します。詳細については、「GPU バックエンド ファブリック」を参照してください。
GPUバックエンドファブリックのインフラストラクチャは、AI大規模言語モデル(LLM)トレーニングなど、需要の高いAIワークロードに最適です。GPUバックエンドファブリックの主な目標の1つは、AIワークロード完了の速度と効率に影響を与えるため、ロスレスのGPU間通信を提供することです。つまり、ストライプ全体にまたがるリアルタイムおよび過去のトラフィックフローデータを一元的に表示することが不可欠であるということです。
バージョン6.0では、Stripe & Rail Traffic Probeと呼ばれるストライプ認識のレール認識プローブが導入され、レール最適化ネットワークのトラフィック分析を提供します。
ストライプおよびレールトラフィックプローブの概要
プローブは以下を実行します。
-
2つの部分に分かれたストライプの一部であるリーフのトラフィックデータを収集します。
- GPUサーバーに面したインターフェイスカウンター
- スパインに面したインターフェイスカウンター
-
ストライプ内トラフィックとストライプ間トラフィックを計算し、レールとストライプのトラフィックの不均衡を検出します。
ダッシュボード:ストライプとレールトラフィックの概要
Rail Aware Traffic Analytics
バージョン6.0は、レール対応の交通分析ダッシュボードを提供します。ウィジェットは、選択したレールに対して特化したデータをフィルタリングします。次の図は、"properties.stripe_id" プロパティに基づくフィルター条件を示しています。
これにより、ダッシュボードにネットワークファブリックの最新状態が反映されます。
バージョン 6.0 では、Stripe Traffic Summary と呼ばれる自動スケーリングダッシュボードもサポートされています。このダッシュボードは、ブループリントに存在するストライプに基づいてダッシュボードインスタンスの数を自動的に調整します。ストライプが削除されると、対応するストライプインスタンスもダッシュボードから削除されます。
以下の画像では、リアルタイムのトラフィックメトリクスを示すストライプインスタンスが、ブループリントに存在する各ストライプに対して生成されています。