Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

グローバルロードバランシング(GLB)

GLBとGLBの設定方法について説明します。

GLB の概要

従来のロードバランシングメカニズムでは、ハッシュアルゴリズムを使用して、トラフィックを送信するエグレスインターフェイスを決定します。これらのアルゴリズムは、受信したパケットの 5 つのタプルでハッシュ関数を操作します。しかし、アルゴリズムは、パケットを送信するリンクのリアルタイム使用率を考慮しません。DLBであっても、決定は完全に局所的であり、アルゴリズムはリンクの使用状況をグローバルに検出することはできません。さらに離れたノードが輻輳している場合、そのノードはパケットをドロップする可能性があります。グローバルロードバランシング(GLB)は、NNH(ネクストツーネクストホップ)レベルで輻輳を可視化するDLBの拡張機能です。

GLBでは、リモートリンクのリンク使用率を考慮してから、エグレスインターフェイスを決定します。DLB と同様に、1 つのマルチパス レッグで輻輳が発生した場合、GLB は輻輳を軽減するためにトラフィックを代替レッグにオフロードできます。DLBとは異なり、GLBはリーフデバイス上のトラフィックフローを再ルーティングすることで、スパインレベルでのトラフィック輻輳を回避できます。

GLBは、データセンター導入で一般的に使用されるClosベースのIPファブリックトポロジー向けに設計されています。初期実装では、3ステージClos(リーフ - スパイン - リーフ)トポロジーがサポートされていました。最近の機能強化により、GLB のサポートが、スーパー スパイン層を導入する 5 ステージ アーキテクチャなど、より大規模な多ステージ Clos トポロジーにまで拡張されています。

大規模なAI/ML導入では、スーパースパインなどの中間ノードには、多数のネクストネクストホップ(NNH)パスが存在する可能性があります。QFX5240チップセットベースのプラットフォームでは、ハードウェアパス品質プロファイルの数は64に制限されています。この制限に対処するために、GLBは特定の条件下でのプロファイル共有をサポートし、複数のパス間でのパス品質プロファイルの再利用を可能にします。

この機能強化により、GLBはハードウェアプロファイルの制限を超えて拡張し、リーフ、スパイン、GPUの数を増やして、より大規模なClosネットワークをサポートすることができます。

機能エクスプローラーを使用して、特定の機能のプラットフォームとリリースのサポートを確認します。

利点

  • 輻輳やリモートリンク障害によるパケットロスを低減

  • Closトポロジーの大規模なデータフローをエンドツーエンドで効果的にロードバランシングし、混雑を回避します。

  • 特に、大量のデータフローによってトラフィックの輻輳が発生する可能性がある導入環境に役立ちます

AI-MLデータセンターにおけるGLB

AI-MLデータセンターは、他のネットワークに比べてエントロピーが少なく、データフローが大きくなります。ハッシュベースのロードバランシングは、エントロピーの少ない大量のトラフィックのデータフローを必ずしも効果的にロードバランシングするとは限らないため、代わりに動的ロードバランシング(DLB)がよく使用されます。ただし、DLBではローカルリンク帯域幅の使用率のみが考慮されます。このため、DLBはトラフィック輻輳を効果的に緩和できるのは、すぐネクストホップでのみです。GLBは、リモートリンクのトラフィック輻輳を考慮することで、大規模なデータフローをより効果的にロードバランシングします。

大規模なAI/MLデータセンターの導入では、GLBは多段階Closトポロジーで使用され、増え続けるデバイスとGPUをサポートします。これらのトポロジーによりパスの多様性が高まり、GLBが複数のネットワーク層にわたってより効果的なロードバランシングの決定を下すことができます。

GLBを設定する

考慮事項

GLBを設定する際は、以下の点に留意してください。

  • GLBは、3ステージおよび多ステージのClos導入を含む、Closベースのトポロジーでサポートされています。マルチステージトポロジーには、スーパースパインなどの追加レイヤーを含めることができ、利用可能なパスの数が増えます。

  • GLB 対応の Clos トポロジーに参加するすべてのデバイスは、機能を設定する前に GLB をサポートする必要があります。

  • QFX5240チップセットベースのプラットフォームでは、ハードウェアパス品質プロファイルの数は64に制限されています。5ステージ展開などの大規模なClosトポロジーでは、スーパースパインなどのノードは、64を超えるネクストネクストホップパスを持つことができます。GLBは、特定の条件下でのプロファイル共有をサポートし、この制限を超えてスケーリングできるようにします。

  • GLBは、同じデバイスペア間のリンクを1つだけサポートします(例えば、スパインデバイスとリーフデバイス)。

  • 大規模なAI/ML導入では、GLB対応ファブリックを設計する際には、Closトポロジーのサイズと利用可能なパスの数を考慮してください。プロファイル共有により効率的なスケーリングが可能になりますが、トポロジーの特性とパスの分布によって異なります。

GLBは、以下の機能をサポートしていません。

  • トップオブラック(ToR)とスパインデバイス間のIRB(統合型ルーティングおよびブリッジング)インターフェイス

  • マルチホームサーバー

  • オーバーレイルート用のGLB(IPv4またはIPv6)

  • ルーティングインスタンスで学習したBGPルート用GLB

GLBを設定する

  1. DLBを設定します。
    ファブリック内の各デバイスのDLB設定は同一である必要があります。DLBの設定方法については、 ダイナミックロードバランシング を参照してください。
  2. ノードのノードIDを設定します。

    各ノードにはノードIDが必要です。ノードIDを設定する際は、次の点に留意してください。

    • 以下のいずれかの階層レベルでノードIDを設定します。
    • bgp-identifierステートメントを設定する場合、group階層レベルやneighbor階層レベルではなく、グローバルに設定する必要があります。

    • 各ノードのBGP識別子は、ファブリック内で一意である必要があります。

  3. Closトポロジーに基づいて、スパインデバイス上でGLBを設定します。
    1. 3-Closアーキテクチャの場合は、スパインデバイスをhelper-onlyモードで設定します。

      helper-onlyモードでは、BGPはアドバタイズするルートに対してNNHノード(NNHN)機能を送信します。BGP は、EBGP セッションを持つすべてのローカル リンクのリンク品質を監視し、その情報をすべての直接ネイバーにフラッディングするように GLB アプリケーションに指示します。

    2. 5-Closアーキテクチャの場合、helper-onlyまたはload-balancer-onlyオプションなしでスパインおよびスーパースパインデバイスを設定します。

      5-Closアーキテクチャでは、スパインデバイスとスーパースパインデバイスはヘルパーモードとロードバランサーモードの両方をサポートします。これらのデバイスでは、 helper-only または load-balancer-only オプションを設定しないでください。

  4. リーフデバイスでは、GLBをload-balancer-onlyモードで設定します。

    load-balancer-onlyモードでは、BGPはアドバタイズするルートのNNHN機能を送信しません。スイッチは、隣接ノードからリンク品質を受信します。ネクストホップとNNHの組み合わせのリンク品質を使用して、ロードバランシングを決定します。このオプションを、任意のClosアーキテクチャのリーフデバイスに設定します。

  5. GLB を選択的に無効にします。
    global-load-balancingステートメントを使用してGLBをグローバルに設定した後、特定のBGPグループまたはピアで選択的に無効にすることができます。GLB を選択的に無効にするには、次のいずれかの階層レベルで no-global-load-balancing ステートメントを使用します。

    次に例を示します。

  6. 以下のコマンドを使用して、設定が成功したことを確認します。
    • show bgp global-load-balancing

    • show bgp global-load-balancing path

    • show bgp global-load-balancing path-monitor

    • show bgp global-load-balancing profile