Das validierte Design (JVD) von Juniper für den Aufbau eines KI-Datencenters – Lösungsübersicht
Ein bewährtes, wiederholbares Datencenter-Netzwerkdesign zur Unterstützung Ihrer KI-Bestrebungen
Holen Sie sich Hilfe bei der Planung und Bereitstellung Ihres KI-Datencenters.
DIE HERAUSFORDERUNG
Die wichtigsten Ziele bei der Planung Ihres Netzwerks für einen KI-Cluster sind die Bereitstellung von maximalem Durchsatz, minimaler Latenz und minimaler Netzwerkinterferenz für KI-Datenverkehrsströme über eine verlustfreie Fabric.
Beispiellose Anforderungen an KI-Netzwerke
Das Training von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) ist ein massives Problem der parallelen Verarbeitung, das die weltweit anspruchvollsten Datencenter-Netzwerke erfordert, um die Anforderungen von KI-Cluster-Workloads zu bewältigen. KI-Cluster stellen besondere Anforderungen an die Netzwerkinfrastruktur, da ihre Datenverkehrsmuster eine hohe Dichte aufweisen, die durch häufige Elephant Flows mit minimalen Datenstromvariationen gekennzeichnet sind. Wie bei jeder neuen Technologie kann die Lernkurve für KI/ML-Cluster steil sein, was zu Zeit- und Kostenverzögerungen führt, die für KI/ML-Architekturen überaus teuer sind.
KI-Datencenter-Netzwerke bestehen aus Frontend, Backend und Speicher, und sie müssen auf- und abwärts skaliert werden können. Auch die Backend- und Speicherkomponenten müssen nahtlos zusammenarbeiten, um die Zeit, die für die Ausführung von Jobs (JCT) benötigt wird, zu minimieren. Dies ist wichtig, denn schon ein geringer Effizienzverlust kann die Trainingszeit für Modelle erheblich verlängern.
Der Datenverkehr in Datencentern, der aus verteilten ML-Workloads erzeugt wird, übertrifft den der meisten anderen Anwendungen. Die Anforderungen der KI an die Übermittlung großer Datensätze und die Verarbeitung von Milliarden oder Billionen von Modellparametern belasten das Netz stark.
NOTWENDIGE FÄHIGKEITEN
Ein vollständig getestetes, gut dokumentiertes Netzwerkdesign
Die Optimierung der KI/ML-Leistung erfordert eine maximale Auslastung des Grafikprozessors (GPU), um Geschwindigkeit und Effizienz zu gewährleisten.
Um den Prozess zu simplifizieren und Ihre KI-Investition zu rationalisieren, bieten validierte Designs von Juniper (JVDs) Frontend- und Backend-Blueprints für Datencenter, um die Zeit bis zur Stabilität zu verkürzen, die Zeit, die für die Ausführung von Jobs (JCT) benötigt wird, zu beschleunigen und die KI-Inferenz-Leistung zu optimieren.
- Wiederholbarkeit
Präskriptive Designs, bei denen alle JVD-Benutzer von den bei weltweiten Einsätzen gemachten Erfahrungen profitieren
- Zuverlässigkeit
Integrierte Best-Practice-Designs, getestet mit realem Datenverkehr und mit gemessenen Ergebnissen beschrieben
- Schnelligkeit
Rationalisierte Bereitstellungen und Upgrades mit Schritt-für-Schritt-Anleitungen, Automatisierung und vorgefertigten Integrationen
- Konstante Leistung
JVDs führen zu Netzwerken, die weitaus rigoroser, stabiler und wartbarer sind
Dieses JVD umfasst eine vollständige End-to-End-Ethernet-basierte KI-Infrastruktur, einschließlich drei separater Fabrics:
- Frontend-Fabric: Diese Fabric ist das Gateway-Netzwerk zu den GPU-Knoten und Speicherknoten. Hier greifen Benutzer und Systeme auf die GPU-Cluster zu.
- Backend-GPU-Fabric: Diese Fabric verbindet die GPUs, die die großen Modelle aus den gespeicherten Datensätzen in den Speicher übernehmen und vereinfacht die Anfragen, die vom Frontend-Netzwerk kommen. Die Knoten (Server) in der Backend-GPU-Fabric übertragen während der Lern- und Trainingsereignisse Informationen mit hoher Geschwindigkeit, die ein verlustfreies Netzwerk zwischen den GPUs erfordern.
- Backend-Speicher-Fabric: Diese Fabric verbindet die hochverfügbaren Speichersysteme, auf denen die Trainingsdaten der großen Modelle gespeichert sind. Die Backend-Speicher-Fabric muss eine nahtlose und zuverlässige Bereitstellung von Daten an die GPUs für das Modelltraining gewährleisten.
Diese drei Fabrics (Abbildung 1) haben eine symbiotische Beziehung und jedes bietet einzigartige Funktionen für Training und Inferenz.
Die Fabrics sind so konzipiert, dass das Netzwerk beim Training von KI-Modellen und bei der Ausführung von GPU-Aufgaben niemals einen Engpass darstellt. NVIDIA bestimmt ein Netzwerkdesign mit der Bezeichnung „Schienenoptimierung“, das die Kommunikationslatenz minimiert.
In einem Rail-optimierten Design verfügt jeder Server über acht Netzwerkschnittstellen (eine pro GPU). Jede GPU-Schnittstelle ist mit einem separaten Leaf-Switch verkabelt. Die Frontend-, Speicher- und Backend-GPU-Rechenschnittstellen befinden sich in separaten, dedizierten Netzwerken. Juniper Apstra ist ideal für die Verwaltung aller drei Fabrics als Entwürfe in derselben Apstra-Instanz.
Die Rail-optimierte Lösungsarchitektur ist in Abbildung 2 dargestellt. Beachten Sie die leistungsstarke Konnektivität in allen Fabrics, insbesondere in der Backend-GPU-Fabric zwischen den GPU-Servern und den QFX-Leaf-Switches.
Die Datencenter-Netzwerke von Juniper mit Fabrics, die aus Switches der QFX-Serie erstellt werden, bieten eine hohe Leistung mit einer offenen Ethernet-Infrastruktur. Die Fabrics sind zwar komplex, um die Leistungsanforderungen der KI zu erfüllen, aber eine absichtsbasierte Automatisierung schützt den Netzwerkbetreiber vor dieser Komplexität.
Um den Empfehlungen der Best Practices zu folgen, werden mindestens vier Spines in jeder Fabric vorgeschlagen. Der Einsatz von Traffic Load Balancing und Class-of-Service (CoS) sollte verwendet werden, um eine verlustfreie Fabric in der Back-End-GPU-Fabric und möglicherweise in der Backend-Speicher-Fabric zu gewährleisten, wie es die Empfehlungen des Anbieters verlangen. Die Bereitstellung einer Rail-optimierten Fabric behält eine 1:1-Beziehung mit Bandbreiten-Abonnement und Leaf-to-GPU-Symmetrie bei.
FUNKTIONSWEISE
Funktionen und Vorteile
Das JVD für ein KI-Datencenter ist ein vorgeschriebener Best-Practice-Ansatz für die Bereitstellung leistungsstarker KI-Trainings- und Inferenznetzwerke, die die Zeit für die Fertigstellung eines Jobs minimieren und die Verwaltung mit begrenzten IT-Ressourcen simplifizieren. Die Architektur erfüllt und übertrifft die Anforderungen der KI-Trainingsleistung.
KERNFÄHIGKEITEN
Keine Engpässe. Niemals.
Die Frontend-, Backend-GPU- und Backend-Speicher-Technologien stellen sicher, dass das Netzwerk beim KI-Modelltraining und bei der Ausführung von GPU-Aufgaben niemals einen Engpass darstellt.
Rail-optimiertes Design
Minimiert die Kommunikationslatenz
Intent-basierte Automatisierung
Schützt den Netzwerkbetreiber vor der Komplexität der Datencenter-Fabric
UNSERE SERVICES
Das JVD-Programm entwickelt gut charakterisierte, mehrdimensionale Lösungen, die die Komplexität für Netzwerkteams reduzieren
Die physische Infrastruktur, die von einem JVD unterstützt wird, belegt die Machbarkeit der Lösung. Die Ergebnisse werden in Testberichten bereitgestellt.
UNSER VORTEIL
Der Vorteil von Juniper
Das KI-Datencenter-Netzwerk von Juniper folgt einem branchenüblichen dedizierten IP-Fabric-Design. Drei verschiedene Fabrics (ein Backend, ein Frontend und eine Speicher-Fabric) bieten maximale Effizienz und konzentrieren sich gleichzeitig auf die Skalierung des KI-Modells, die beschleunigten Fertigstellungstermine und die schnelle Entwicklung mit dem Aufkommen der KI-Technologien.
Konfigurationen werden zusammen mit der optimalen Hardware angegeben. Insgesamt werden die besten Plattformen im Hinblick auf ihre Funktionen, ihre Leistung und die in diesem JVD genannten Rollen detailliert beschrieben.
Das KI-JVD-Design ermöglicht es Betreibern, einen Trainingscluster systematisch zu orchestrieren, ohne dass sie über tiefgreifende Vorkenntnisse über die erforderlichen Produkte und Technologien verfügen müssen.
WARUM JUNIPER
The NOW Way to Network
Juniper Networks ist davon überzeugt, dass Konnektivität nicht dasselbe ist wie eine großartige Verbindung. Die KI-native Netzwerkplattform von Juniper ist von Grund auf auf die Nutzung von KI ausgelegt, um herausragende, hochsichere und nachhaltige Benutzererfahrungen vom Edge bis zum Datencenter und zur Cloud bereitzustellen. Weitere Informationen finden Sie unter Juniper Networks (www.juniper.net) oder folgen Sie Juniper auf X (Twitter), LinkedIn und Facebook.
WEITERE INFORMATIONEN
Um mehr über das KI-Datencenter-Netzwerk mit Juniper Apstra, NVIDIA-GPUs und WEKA Speicher – JVD zu erfahren, besuchen Sie https://www.juniper.net/documentation/us/en/software/jvd/jvd-ai-dc-apstra-nvidia-weka/index.html
Technische Datenblätter, Leitfäden und Dokumentation finden Sie unter https://www.juniper.net/documentation/validated-designs/