Lösungsübersicht: Das validierte Design (JVD) von Juniper für den Aufbau eines KI-Datencenters

DIE HERAUSFORDERUNG

Die wichtigsten Ziele bei der Planung Ihres Netzwerks für einen KI-Cluster sind die Bereitstellung von maximalem Durchsatz, minimaler Latenz und minimaler Netzwerkinterferenz für KI-Datenverkehrsströme über eine verlustfreie Fabric.

Beispiellose Anforderungen an KI-Netzwerke

Das Training von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) ist ein massives Problem der parallelen Verarbeitung, das die weltweit anspruchvollsten Datencenter-Netzwerke erfordert, um die Anforderungen von KI-Cluster-Workloads zu bewältigen. KI-Cluster stellen besondere Anforderungen an die Netzwerkinfrastruktur, da ihre Datenverkehrsmuster eine hohe Dichte aufweisen, die durch häufige Elephant Flows mit minimalen Datenstromvariationen gekennzeichnet sind. Wie bei jeder neuen Technologie kann die Lernkurve für KI/ML-Cluster steil sein, was zu Zeit- und Kostenverzögerungen führt, die für KI/ML-Architekturen überaus teuer sind.

KI-Datencenter-Netzwerke bestehen aus Frontend, Backend und Speicher, und sie müssen auf- und abwärts skaliert werden können. Auch die Backend- und Speicherkomponenten müssen nahtlos zusammenarbeiten, um die Zeit, die für die Ausführung von Jobs (JCT) benötigt wird, zu minimieren. Dies ist wichtig, denn schon ein geringer Effizienzverlust kann die Trainingszeit für Modelle erheblich verlängern.

Der Datenverkehr in Datencentern, der aus verteilten ML-Workloads erzeugt wird, übertrifft den der meisten anderen Anwendungen. Die Anforderungen der KI an die Übermittlung großer Datensätze und die Verarbeitung von Milliarden oder Billionen von Modellparametern belasten das Netz stark.

NOTWENDIGE FÄHIGKEITEN

Ein vollständig getestetes, gut dokumentiertes Netzwerkdesign

Die Optimierung der KI/ML-Leistung erfordert eine maximale Auslastung des Grafikprozessors (GPU), um Geschwindigkeit und Effizienz zu gewährleisten.

Um den Prozess zu simplifizieren und Ihre KI-Investition zu rationalisieren, bieten validierte Designs von Juniper (JVDs) Frontend- und Backend-Blueprints für Datencenter, um die Zeit bis zur Stabilität zu verkürzen, die Zeit, die für die Ausführung von Jobs (JCT) benötigt wird, zu beschleunigen und die KI-Inferenz-Leistung zu optimieren.

Wiederholbarkeit

Präskriptive Designs, bei denen alle JVD-Benutzer von den bei weltweiten Einsätzen gemachten Erfahrungen profitieren

Zuverlässigkeit

Integrierte Best-Practice-Designs, getestet mit realem Datenverkehr und mit gemessenen Ergebnissen beschrieben

Schnelligkeit

Rationalisierte Bereitstellungen und Upgrades mit Schritt-für-Schritt-Anleitungen, Automatisierung und vorgefertigten Integrationen

Konstante Leistung

JVDs führen zu Netzwerken, die weitaus rigoroser, stabiler und wartbarer sind

Dieses JVD umfasst eine vollständige End-to-End-Ethernet-basierte KI-Infrastruktur, einschließlich drei separater Fabrics:

Frontend-Fabric: Diese Fabric ist das Gateway-Netzwerk zu den GPU-Knoten und Speicherknoten. Hier greifen Benutzer und Systeme auf die GPU-Cluster zu.
Backend-GPU-Fabric: Diese Fabric verbindet die GPUs, die die großen Modelle aus den gespeicherten Datensätzen in den Speicher übernehmen und vereinfacht die Anfragen, die vom Frontend-Netzwerk kommen. Die Knoten (Server) in der Backend-GPU-Fabric übertragen während der Lern- und Trainingsereignisse Informationen mit hoher Geschwindigkeit, die ein verlustfreies Netzwerk zwischen den GPUs erfordern.
Backend-Speicher-Fabric: Diese Fabric verbindet die hochverfügbaren Speichersysteme, auf denen die Trainingsdaten der großen Modelle gespeichert sind. Die Backend-Speicher-Fabric muss eine nahtlose und zuverlässige Bereitstellung von Daten an die GPUs für das Modelltraining gewährleisten.

Diese drei Fabrics (Abbildung 1) haben eine symbiotische Beziehung und jedes bietet einzigartige Funktionen für Training und Inferenz.

Die Fabrics sind so konzipiert, dass das Netzwerk beim Training von KI-Modellen und bei der Ausführung von GPU-Aufgaben niemals einen Engpass darstellt. NVIDIA bestimmt ein Netzwerkdesign mit der Bezeichnung „Schienenoptimierung“, das die Kommunikationslatenz minimiert.

In einem Rail-optimierten Design verfügt jeder Server über acht Netzwerkschnittstellen (eine pro GPU). Jede GPU-Schnittstelle ist mit einem separaten Leaf-Switch verkabelt. Die Frontend-, Speicher- und Backend-GPU-Rechenschnittstellen befinden sich in separaten, dedizierten Netzwerken. Juniper Apstra ist ideal für die Verwaltung aller drei Fabrics als Entwürfe in derselben Apstra-Instanz.

Die Rail-optimierte Lösungsarchitektur ist in Abbildung 2 dargestellt. Beachten Sie die leistungsstarke Konnektivität in allen Fabrics, insbesondere in der Backend-GPU-Fabric zwischen den GPU-Servern und den QFX-Leaf-Switches.

Die Datencenter-Netzwerke von Juniper mit Fabrics, die aus Switches der QFX-Serie erstellt werden, bieten eine hohe Leistung mit einer offenen Ethernet-Infrastruktur. Die Fabrics sind zwar komplex, um die Leistungsanforderungen der KI zu erfüllen, aber eine absichtsbasierte Automatisierung schützt den Netzwerkbetreiber vor dieser Komplexität.

Um den Empfehlungen der Best Practices zu folgen, werden mindestens vier Spines in jeder Fabric vorgeschlagen. Der Einsatz von Traffic Load Balancing und Class-of-Service (CoS) sollte verwendet werden, um eine verlustfreie Fabric in der Back-End-GPU-Fabric und möglicherweise in der Backend-Speicher-Fabric zu gewährleisten, wie es die Empfehlungen des Anbieters verlangen. Die Bereitstellung einer Rail-optimierten Fabric behält eine 1:1-Beziehung mit Bandbreiten-Abonnement und Leaf-to-GPU-Symmetrie bei.

FUNKTIONSWEISE

Funktionen und Vorteile

Das JVD für ein KI-Datencenter ist ein vorgeschriebener Best-Practice-Ansatz für die Bereitstellung leistungsstarker KI-Trainings- und Inferenznetzwerke, die die Zeit für die Fertigstellung eines Jobs minimieren und die Verwaltung mit begrenzten IT-Ressourcen simplifizieren. Die Architektur erfüllt und übertrifft die Anforderungen der KI-Trainingsleistung.

Integriertes vorgeschriebenes Design
In diesem Design hat Juniper NVDIA-GPU, WEKA-Speicher und Juniper Switches zusammen mit der Juniper Apstra Software und Terraform für die Automatisierung integriert. Das vorgeschriebene Design hilft Kunden beim einfachen Aufbau von leistungsfähigen und einfach zu bedienenden Netzwerk-Fabrics, die das schnellste JCT bieten und die GPU-Nutzung maximieren
Unterbrechungsfreier KI/ML-Datenverkehr
Um einen unterbrechungsfreien KI/ML-Datenverkehr zu gewährleisten, sind die Netzwerkgeräte so konfiguriert, dass sie Überlastungen mithilfe der DCQCN-Benachrichtigung (Data Center Quantized Congestion Notification) bewältigen, die eine prioritätsbasierte Datenstromsteuerung (PFC) und eine explizite Überlastungsbenachrichtigung (ECN) bietet. Das Design umfasst auch dynamisches Load Balancing (DLB) auf den Leaf-Knoten

KERNFÄHIGKEITEN

Keine Engpässe. Niemals.

Die Frontend-, Backend-GPU- und Backend-Speicher-Technologien stellen sicher, dass das Netzwerk beim KI-Modelltraining und bei der Ausführung von GPU-Aufgaben niemals einen Engpass darstellt.

Rail-optimiertes Design

Minimiert die Kommunikationslatenz

Intent-basierte Automatisierung

Schützt den Netzwerkbetreiber vor der Komplexität der Datencenter-Fabric

UNSERE SERVICES

Das JVD-Programm entwickelt gut charakterisierte, mehrdimensionale Lösungen, die die Komplexität für Netzwerkteams reduzieren

Die physische Infrastruktur, die von einem JVD unterstützt wird, belegt die Machbarkeit der Lösung. Die Ergebnisse werden in Testberichten bereitgestellt.

UNSER VORTEIL

Der Vorteil von Juniper

Das KI-Datencenter-Netzwerk von Juniper folgt einem branchenüblichen dedizierten IP-Fabric-Design. Drei verschiedene Fabrics (ein Backend, ein Frontend und eine Speicher-Fabric) bieten maximale Effizienz und konzentrieren sich gleichzeitig auf die Skalierung des KI-Modells, die beschleunigten Fertigstellungstermine und die schnelle Entwicklung mit dem Aufkommen der KI-Technologien.

Konfigurationen werden zusammen mit der optimalen Hardware angegeben. Insgesamt werden die besten Plattformen im Hinblick auf ihre Funktionen, ihre Leistung und die in diesem JVD genannten Rollen detailliert beschrieben.

Das KI-JVD-Design ermöglicht es Betreibern, einen Trainingscluster systematisch zu orchestrieren, ohne dass sie über tiefgreifende Vorkenntnisse über die erforderlichen Produkte und Technologien verfügen müssen.

WARUM JUNIPER

The NOW Way to Network

Juniper Networks ist davon überzeugt, dass Konnektivität nicht dasselbe ist wie eine großartige Verbindung. Die KI-native Netzwerkplattform von Juniper ist von Grund auf auf die Nutzung von KI ausgelegt, um herausragende, hochsichere und nachhaltige Benutzererfahrungen vom Edge bis zum Datencenter und zur Cloud bereitzustellen. Weitere Informationen finden Sie unter Juniper Networks (www.juniper.net) oder folgen Sie Juniper auf X (Twitter), LinkedIn und Facebook.

WEITERE INFORMATIONEN

Um mehr über das KI-Datencenter-Netzwerk mit Juniper Apstra, NVIDIA-GPUs und WEKA Speicher – JVD zu erfahren, besuchen Sie https://www.juniper.net/documentation/us/en/software/jvd/jvd-ai-dc-apstra-nvidia-weka/index.html

Technische Datenblätter, Leitfäden und Dokumentation finden Sie unter https://www.juniper.net/documentation/validated-designs/

Das validierte Design (JVD) von Juniper für den Aufbau eines KI-Datencenters – Lösungsübersicht