Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

AI-MLデータセンターの概要

AI:人工知能\(AI)や機械学習(ML)アプリケーションの拡大に伴い、これらのAI-MLアプリケーションをサポートするネットワークでは、大規模なデータフローを処理するための容量を増やす必要があります。この要件は、AI-MLデータセットを保管するデータセンターに特に当てはまります。Junos® OS Evolvedは、AI-MLデータセンター向けの革新的な機能セットを提供します。ネットワーク管理者は、このガイドを使用して、これらの機能を設定し、AI-MLデータセンターファブリック内の運用を最適化する方法を学習できます。

大規模言語モデル(LLM)などの生成AIやMLアプリケーションは、データセットの統計的分析に基づいており、計算モデルがデータからパターンを見つける頻度が高いほど、その出力でそのパターンが強化されます。この反復的なパターン発見により、これらのモデルは、説得力のある人間の発話を模倣するなどのタスクを達成することができます。しかし、生成AIアプリケーションの良し悪しは、トレーニングを受けたデータセットによって決まります。データセットが大きいほど、モデルが検出できるパターンが多くなります。このため、AIアプリケーションやMLアプリケーションには大規模なデータセットが必要です。これらのデータセットはデータセンターに保存されます。

トレーニングの速度を上げるために、AIおよびMLモデルは多くの場合、データセンターネットワーク内で並列コンピューティングを介してトレーニングされます。GPU(グラフィック処理ユニット)はクラスター化され、データセンター全体に分散したサーバーノードでホストされます。複雑な計算は、これらのGPUクラスターで同時に行われます。ネットワークは、完全に学習済みのモデルを作成するために、クラスター内のGPUからの出力を同期させる必要があります。この同期には、ネットワークのバックエンドで大規模なデータフロー(以下、 エレファントフロー)を継続的に移動させる必要があります。

AI-MLデータセンターのエレファントフローには、堅牢なネットワークが必要です。エレファントフローを処理する場合、ネットワークが不十分だと、トラフィックの輻輳、パケットのドロップ、リンク障害などの問題にすぐに遭遇します。このようなネットワークの問題は、高い精度が要求されるデータを扱う場合には特に許容できません。AI-MLデータセンターに最適な堅牢なネットワーク設計の1つが、レール最適化ストライプです。このAIクラスターアーキテクチャは、宛先と同じレール上のGPUにデータを移動することで、ネットワーク障害を最小限に抑えます。IP Closアーキテクチャは、もう1つの機能的なAI-MLデータセンターファブリック設計です。

Junos OS Evolvedを搭載したジュニパーネットワーク®スのQFXシリーズスイッチは、レール最適化ストライプアーキテクチャとIP Closネットワーク設計の両方に最適です。たとえば、QFX5220-32CD、QFX5230-64CD、QFX5240-64OD、QFX5240-QDスイッチは、リーフ、スパイン、スーパースパインデバイスなどのどちらのネットワークタイプでも問題なく機能します。これらのスイッチは、ディストリビューション(POD)と呼ばれるリーフスパインスイッチのグループとしても機能します。データセンターで大規模なAI-MLクラスターを構築するには、スーパースパインレイヤーを使用してさまざまなPODを相互接続します。これらのスイッチは、単一のPODまたは複数のPODとして展開することで、最大限の柔軟性とネットワーク冗長性を実現します。さらに、これらのデバイスは、AI-MLデータセンターでよく見られる多くのロードバランシングやトラフィック管理の問題を解決する高度なAI-ML機能をサポートしています。