このページの内容
グローバルロードバランシング(GLB)
GLBとGLBの設定方法について説明します。
GLB の概要
従来のロードバランシングメカニズムでは、ハッシュアルゴリズムを使用して、トラフィックを送信するエグレスインターフェイスを決定します。これらのアルゴリズムは、受信したパケットの 5 つのタプルでハッシュ関数を操作します。しかし、アルゴリズムは、パケットを送信するリンクのリアルタイム使用率を考慮しません。DLBであっても、決定は完全に局所的であり、アルゴリズムはリンクの使用状況をグローバルに検出することはできません。さらに離れたノードが輻輳している場合、そのノードはパケットをドロップする可能性があります。グローバルロードバランシング(GLB)は、NNH(ネクストツーネクストホップ)レベルで輻輳を可視化するDLBの拡張機能です。
GLBでは、リモートリンクのリンク使用率を考慮してから、エグレスインターフェイスを決定します。DLB と同様に、1 つのマルチパス レッグで輻輳が発生した場合、GLB は輻輳を軽減するためにトラフィックを代替レッグにオフロードできます。DLBとは異なり、GLBはリーフデバイス上のトラフィックフローを再ルーティングすることで、スパインレベルでのトラフィック輻輳を回避できます。
GLBは、データセンター導入で一般的に使用されるClosベースのIPファブリックトポロジー向けに設計されています。初期実装では、3ステージClos(リーフ - スパイン - リーフ)トポロジーがサポートされていました。最近の機能強化により、GLB のサポートが、スーパー スパイン層を導入する 5 ステージ アーキテクチャなど、より大規模な多ステージ Clos トポロジーにまで拡張されています。
大規模なAI/ML導入では、スーパースパインなどの中間ノードには、多数のネクストネクストホップ(NNH)パスが存在する可能性があります。QFX5240チップセットベースのプラットフォームでは、ハードウェアパス品質プロファイルの数は64に制限されています。この制限に対処するために、GLBは特定の条件下でのプロファイル共有をサポートし、複数のパス間でのパス品質プロファイルの再利用を可能にします。
この機能強化により、GLBはハードウェアプロファイルの制限を超えて拡張し、リーフ、スパイン、GPUの数を増やして、より大規模なClosネットワークをサポートすることができます。
機能エクスプローラーを使用して、特定の機能のプラットフォームとリリースのサポートを確認します。
利点
-
輻輳やリモートリンク障害によるパケットロスを低減
-
Closトポロジーの大規模なデータフローをエンドツーエンドで効果的にロードバランシングし、混雑を回避します。
-
特に、大量のデータフローによってトラフィックの輻輳が発生する可能性がある導入環境に役立ちます
AI-MLデータセンターにおけるGLB
AI-MLデータセンターは、他のネットワークに比べてエントロピーが少なく、データフローが大きくなります。ハッシュベースのロードバランシングは、エントロピーの少ない大量のトラフィックのデータフローを必ずしも効果的にロードバランシングするとは限らないため、代わりに動的ロードバランシング(DLB)がよく使用されます。ただし、DLBではローカルリンク帯域幅の使用率のみが考慮されます。このため、DLBはトラフィック輻輳を効果的に緩和できるのは、すぐネクストホップでのみです。GLBは、リモートリンクのトラフィック輻輳を考慮することで、大規模なデータフローをより効果的にロードバランシングします。
大規模なAI/MLデータセンターの導入では、GLBは多段階Closトポロジーで使用され、増え続けるデバイスとGPUをサポートします。これらのトポロジーによりパスの多様性が高まり、GLBが複数のネットワーク層にわたってより効果的なロードバランシングの決定を下すことができます。
GLBを設定する
考慮事項
GLBを設定する際は、以下の点に留意してください。
-
GLBは、3ステージおよび多ステージのClos導入を含む、Closベースのトポロジーでサポートされています。マルチステージトポロジーには、スーパースパインなどの追加レイヤーを含めることができ、利用可能なパスの数が増えます。
-
GLB 対応の Clos トポロジーに参加するすべてのデバイスは、機能を設定する前に GLB をサポートする必要があります。
-
QFX5240チップセットベースのプラットフォームでは、ハードウェアパス品質プロファイルの数は64に制限されています。5ステージ展開などの大規模なClosトポロジーでは、スーパースパインなどのノードは、64を超えるネクストネクストホップパスを持つことができます。GLBは、特定の条件下でのプロファイル共有をサポートし、この制限を超えてスケーリングできるようにします。
-
GLBは、同じデバイスペア間のリンクを1つだけサポートします(例えば、スパインデバイスとリーフデバイス)。
-
大規模なAI/ML導入では、GLB対応ファブリックを設計する際には、Closトポロジーのサイズと利用可能なパスの数を考慮してください。プロファイル共有により効率的なスケーリングが可能になりますが、トポロジーの特性とパスの分布によって異なります。
GLBは、以下の機能をサポートしていません。
-
トップオブラック(ToR)とスパインデバイス間のIRB(統合型ルーティングおよびブリッジング)インターフェイス
-
マルチホームサーバー
-
オーバーレイルート用のGLB(IPv4またはIPv6)
-
ルーティングインスタンスで学習したBGPルート用GLB