Was sind KI-Datencenter-Netzwerke?

KI-Datencenter-Netzwerke beziehen sich auf die Datencenter-Netzwerk-Fabric, die künstliche Intelligenz (KI) ermöglicht. Sie unterstützen die rigorose Netzwerkskalierbarkeit, die Leistung und die niedrigen Latenzanforderungen von KI- und ML-Workloads (ML: maschinelles Lernen), die in der KI-Trainingsphase besonders anspruchsvoll sind.

Im früheren High-Performance-Computing (HPC)und bei KI-Trainingsnetzwerken war InfiniBand, eine proprietäre Hochgeschwindigkeits-Netzwerktechnologie mit niedriger Latenz, anfangs beliebt wegen seiner schnellen und effizienten Kommunikation zwischen Servern und Speichersystemen. Heute ist die offene Alternative das Ethernet, das sich am Markt für KI-Datencenter-Netzwerke zunehmender Beliebtheit erfreut und wahrscheinlich die vorherrschende Technologie werden wird.

Es gibt mehrere Gründe für die vermehrte Einführung des Ethernet, aber Betrieb und Kosten sind besonders bedeutend. Der Talent-Pool von Netzwerkprofis, die ein Ethernet (im Gegensatz zu einem proprietären InfiniBand-Netzwerk) aufbauen und betreiben können, ist riesig. Zudem gibt es eine breite Palette von Tools zur Verwaltung solcher Netzwerke im Vergleich zur InfiniBand-Technologie, die hauptsächlich über Nvidia bezogen wird.

Welche KI-gestützten Anforderungen werden von KI-Datencenter-Netzwerken adressiert?

Generative KI erweist sich auf der ganzen Welt als transformative Technologie. Generative KI und große Deep-Learning-KI-Modelle im Allgemeinen stellen neue Anforderungen an das Datencenter-Netzwerk. Die Entwicklung eines KI-Modells besteht aus drei Phasen:

Phase 1: Datenvorbereitung: Erfassung und Kuratierung von Datensätzen, die in das KI-Modell eingespeist werden.
Phase 2: KI-Training: Dem KI-Modell wird beigebracht, eine bestimmte Aufgabe auszuführen, indem ihm eine große Datenmenge zur Verfügung gestellt wird. Während dieser Phase lernt das KI-Modell Muster und Beziehungen innerhalb der Trainingsdaten, um virtuelle Synapsen zu entwickeln und Intelligenz nachzuahmen.
Phase 3: KI-Inferenz: Ausführung in einer realen Umgebung, um Vorhersagen oder Entscheidungen auf der Grundlage neuer, bisher unbekannter Daten zu treffen.

Phase 3 wird in der Regel von bestehenden Datencenter- und Cloud-Netzwerken unterstützt. Phase 2 (das KI-Training) erfordert jedoch umfangreiche Daten und Rechenressourcen für den iterativen Prozess, bei dem das KI-Modell von Daten lernt, die kontinuierlich erfasst werden, um seine Parameter zu verfeinern. GPUs eignen sich gut für KI-Training- und Inferenz-Workloads, müssen aber in Clustern arbeiten, um effizient zu sein. Das Skalieren von Clustern verbessert die Effizienz des KI-Modells, erhöht jedoch auch die Kosten. Daher muss ein KI-Datencenter-Netzwerk genutzt werden, das die Effizient des Clusters nicht einschränkt.

Es müssen zehntausende GPU-Server (die 2023 mehr als 400.000 USD pro Server kosten) verbunden sein, um große Modelle zu trainieren. Daher muss die Job-Abschlusszeit optimiert und die Tail Latency (ein Zustand, bei dem Ausreißer-KI-Workloads die Fertigstellung des gesamten KI-Jobs verlangsamen) minimiert oder eliminiert werden, um den ROI der GPU zu optimieren. In diesem Anwendungsfall muss das KI-Datencenter-Netzwerk zu 100 % verlässlich sein und darf keine Effizienzverschlechterung im Cluster verursachen.

Wie funktionieren KI-Datencenter-Netzwerke?

Obwohl teure GPU-Server die Gesamtkosten von KI-Datencentern üblicherweise in die Höhe treiben, sind KI-Datencenter-Netzwerke von entscheidender Bedeutung: Denn um die GPU-Nutzung zu maximieren, ist ein leistungsstarkes Netzwerk erforderlich. Ethernet ist eine offene, bewährte Technologie, die sich am besten eignet, um diese Lösung in einer Datencenter-Netzwerkarchitektur bereitzustellen, die für KI optimiert ist. Zu den Verbesserungen gehören die Überlastungsverwaltung, Load Balancing und minimierte Latenz zur Optimierung der Job-Abschlusszeit (JCT). Schließlich gewährleisten die simplifizierte Verwaltung und Automatisierung Zuverlässigkeit und kontinuierliche Leistung.

Fabric-Design

In KI-Datencenter-Netzwerken können verschiedene Fabric-Designs verwendet werden, jedoch ist eine nicht blockierende Any-to-Any-Clos-Fabric empfehlenswert, um das Trainings-Framework zu optimieren. Diese Fabrics sind mit einer konsistenten Netzwerkgeschwindigkeit von 400 Gbit/s (Weiterentwicklung zu 800 Gbit/s) von der NIC zum Leaf und durch das Spine aufgebaut. Eine zweischichtige, dreistufige nicht blockierende Fabric oder eine dreischichtige, fünfstufige nicht blockierende Fabric kann je nach Modellgröße und GPU-Skala verwendet werden.

Datenstromsteuerung und Überlastungsvermeidung

Zusätzlich zur Fabric-Kapazität erhöhen weitere Design-Überlegungen die Zuverlässigkeit und Effizienz der gesamten Fabric. Zu diesen Überlegungen gehören eine angemessen große Fabric-Verbindung mit der optimalen Anzahl von Links und die Möglichkeit, Ungleichgewichte des Datenstroms zu erkennen und zu korrigieren, um Überlastung und Paketverlust zu vermeiden. Explicit Congestion Notice (ECN) mit Data Center quantized Congestion Notice (DCQCN) und prioritätsbasierter Datenstromsteuerung beheben Ungleichgewichte des Datenstroms, um eine verlustfreie Übertragung zu gewährleisten.

Um Überlastungen zu reduzieren, wird dynamisches und adaptives Load Balancing am Switch bereitgestellt. Dynamisches Load Balancing verteilt Datenflüsse lokal am Switch, um sie gleichmäßig zu verteilen. Adaptives Load Balancing überwacht die Datenstromweiterleitung und Next-Hop-Tabellen, um Ungleichgewichte zu identifizieren und Datenverkehr von überlasteten Pfaden abzuwenden.

Wenn Überlastungen nicht vermieden werden, bietet ECN eine frühzeitige Benachrichtigung für Anwendungen. Während dieser Zeiträume aktualisieren Leafs und Spines ECN-fähige Pakete, um Absender über die Überlastung zu informieren. Die führt, dass die Absender die Übertragung verlangsamen, um Paketabbrüche bei der Übertragung zu vermeiden. Wenn die Endpunkte nicht rechtzeitig reagieren, können Ethernet-Empfänger mit der prioritätsbasierten Datenstromsteuerung (PFC) Feedback zur Pufferverfügbarkeit teilen. Schließlich können Leafs und Spines während Überlastungen den Datenverkehr auf bestimmten Links pausieren oder drosseln, um Überlastungen zu reduzieren und Paketabbrüche zu vermeiden, was verlustfreie Übertragungen für bestimmte Datenverkehrsklassen ermöglicht.

Umfang und Leistung

Ethernet hat sich als die offene Lösung der Wahl herausgestellt, um die Anforderungen von Hochleistungscomputing und KI-Anwendungen zu bewältigen. Sie hat sich im Laufe der Zeit weiterentwickelt (einschließlich der aktuellen Weiterentwicklung zu 800 GbE und Data Center Bridging (DCB)), um schneller, zuverlässiger und skalierbar zu werden. Sie ist die bevorzugte Wahl für die Verarbeitung von hohem Datendurchsatz und niedrigen Latenzanforderungen, die für unternehmenskritische KI-Anwendungen erforderlich sind.

Automatisierung

Die Automatisierung ist das letzte Stück für eine effektive Lösung für KI-Datencenter-Netzwerke, obwohl nicht jede Automatisierung gleich gut ist. Um den vollen Nutzen zu erzielen, muss die Automatisierungssoftware einen Experience-First-Betrieb bieten. Sie wird kontinuierlich beim Design, bei der Bereitstellung und der Verwaltung des KI-Datencenters eingesetzt. Sie automatisiert und validiert den Lebenszyklus des KI-Datencenter-Netzwerks von Day 0 bis Day 2+. Dies führt zu wiederholbaren und kontinuierlich validierten KI-Datencenter-Designs und -Bereitstellungen, die nicht nur menschliche Fehler eliminiert, sondern auch die Vorteile der Telemetrie- und Datenstromdaten nutzen, um die Leistung zu optimieren, die proaktive Fehlerbehebung zu erleichtern und Ausfälle zu vermeiden.

Die Lösung für KI-Datencenter-Netzwerke von Juniper baut auf jahrzehntelanger Netzwerkerfahrung und AIOps-Innovationen auf

Die Lösung für KI-Datencenter-Netzwerke von Juniper baut auf unserer jahrzehntelangen Erfahrung mit Netzwerken und AIOps-Innovationen auf und ergänzt offene, schnelle und einfach zu verwaltende Ethernet-basierte KI-Netzwerklösungen. Diese skalierbaren, nicht blockierenden Fabrics mit hoher Kapazität bieten die höchste KI-Leistung, die schnellste Job-Abschlusszeit und die effizienteste GPU-Nutzung. Die Lösung für KI-Datencenter-Netzwerke von Juniper nutzt drei grundlegende Architektur-Säulen:

Massiv skalierbare Leistung: Zur Optimierung der Job-Abschlusszeit und somit der GPU-Effizienz
Offenheit nach Industriestandard: Erweiterung bestehender Datencenter-Technologien mit branchengestützten Ökosystemen, die Innovationen fördern und die Kosten langfristig senken
Experience-First-Betrieb: Zur Automatisierung und Simplifizierung des Designs, der Bereitstellung und des Betriebs von KI-Datencentern für Back-End-, Front-End- und Speicher-Fabrics

Diese Säulen werden unterstützt durch:

Ein verlustfreies KI-Datencenter-Netzwerkdesign mit hoher Kapazität, das die Vorteile einer nicht blockierenden Any-to-Any-Clos-Fabric nutzt – die vielseitigste Topologie zur Optimierung von KI-Trainings-Frameworks.
Leistungsstarke Switches und Router, einschließlich Juniper Router der PTX-Serie, die auf Juniper Express Siliziumtechnologie für das Spine/Super Spine basieren, und Switches der QFX-Serie, die basierend auf den Tomahawk ASICs von Broadcom als Leaf-Switches für KI-Server-Konnektivität sorgen.
Fabric-Effizienz mit Datenstromsteuerung und Kollisionsvermeidung
Offene, standardbasierte Ethernet-Skalierung und -Leistung mit 800 GbE
Umfassende Automatisierung mit der absichtsbasierten Juniper Apstra® Netzwerksoftware zur Automatisierung und Validierung des Lebenszyklus des KI-Datencenter-Netzwerk ab Day 0 bis Day 2+

KI-Datencenter-Netzwerke – FAQ

Welche Probleme beheben KI-Datencenter-Netzwerk ?

KI-Datencenter-Netzwerke erfüllen die Leistungsanforderungen von generativer KI und großen Deep-Learning-KI-Modellen im Allgemeinen. Vor allem KI-Training erfordert umfangreiche Daten- und Rechenressourcen für den iterativen Prozess, bei dem das KI-Modell von kontinuierlich erfassten Daten lernt, um seine Parameter zu verfeinern. GPUs eignen sich gut für KI-Training- und Inferenz-Workloads, müssen aber in Clustern arbeiten, um effizient zu sein. Die Skalierung von Clustern verbessert die Effizienz des KI-Modells, erhöht jedoch auch die Kosten. Daher ist es von entscheidender Bedeutung, KI-Datencenter-Netzwerke einzusetzen, die die Effizienz des Clusters nicht beeinträchtigen.

Um große Modelle zu trainieren, müssen zehntausende GPU-Server (von jeweils über 400.000 USD im Jahr 2023) verbunden sein. Daher muss die Job-Abschlusszeit maximiert und die Tail Latency (ein Zustand, bei dem Ausreißer-KI-Workloads die Fertigstellung des gesamten KI-Jobs verlangsamen) minimiert oder eliminiert werden, um den ROI der GPU zu optimieren. In diesem Anwendungsfall muss das KI-Datencenter-Netzwerk zu 100 % verlässlich sein und darf keine Effizienzverschlechterung im Cluster verursachen.

Was sind die Vorteile von Ethernet im Vergleich zu InfiniBand für KI-Datencenter-Netzwerke?

Im früheren High-performance Computing (HPC) und bei KI-Trainingsnetzwerken war InfiniBand, eine proprietäre Hochgeschwindigkeits-Netzwerktechnologie mit niedriger Latenz, anfangs beliebt wegen seiner schnellen und effizienten Kommunikation zwischen Servern und Speichersystemen. Heute ist die offene Alternative das Ethernet, das sich am Markt für KI-Datencenter-Netzwerke zunehmender Beliebtheit erfreut und wahrscheinlich die vorherrschende Technologie werden wird.

Proprietäre Technologien wie InfiniBand können zwar Fortschritte und Innovationen bringen, doch sie sind teuer, da sie Prämien berechnen, wo wettbewerbsfähige Angebots- und Nachfrage-Märkte die Kosten nicht regulieren Darüber hinaus ist der Talent-Pool von Netzwerkprofis, die ein Ethernet (im Gegensatz zu einem proprietären InfiniBand-Netzwerk) aufbauen und betreiben können, riesig. Zudem gibt es eine breite Palette von Tools zur Verwaltung solcher Netzwerke im Vergleich zur InfiniBand-Technologie, die hauptsächlich über Nvidia bezogen wird.

Neben IP ist Ethernet die weltweit am häufigsten verwendete Netzwerktechnologie. Ethernet hat sich weiterentwickelt und ist schneller, zuverlässiger und skalierbarer geworden, was es für die Verarbeitung des hohen Datendurchsatzes und aufgrund der für KI-Anwendungen erforderlichen niedrigen Latenz zur bevorzugten Wahl macht. Die Weiterentwicklung zu 800 GbE und Data Center Bridging (DCB) Ethernet-Verbesserungen ermöglichen eine hohe Kapazität, niedrige Latenz und verlustfreie Datenübertragung, was Ethernet-Fabrics für den prioritären und unternehmenskritischen KI-Datenverkehr äußerst begehrenswert macht.

Welche Lösungen/Produkte/Techologie für KI-Datencenternetzwerke bietet Juniper?

Die Lösung von Juniper für KI-Datencenter-Netzwerke bietet ein verlustloses Design für KI-Datencenter-Netzwerke mit hoher Kapazität und einer nicht blockierenden Any-to-Any-Clos-Fabric, der vielseitigsten Topologie für die Optimierung von KI-Trainingsframeworks. Die Lösung nutzt die Vorteile von leistungsstarken, offenen, standardbasierten Ethernet-Switches und Routern mit Schnittstellen bis zu 800 GbE. Darüber hinaus nutzt es die absichtsbasierte Juniper Apstra Netzwerksoftware zur Automatisierung und Validierung des Lebenszyklus des KI-Datencenter-Netzwerks ab Day 0 bis Day 2+.

Ressourcencenter

Produkte

Switches der QFX-Serie

Router der PTX-Serie

Apstra Intent-Based Networking Software

Whitepaper

KI-Datencenter-Netzwerke

Was sind KI-Datencenter-Netzwerke?