Die KI-Revolution: grundlegende Veränderungen und neue Chancen im Netzwerkbereich

15. August 2023

Von Rami Rahim, CEO, Juniper Networks

Ich erinnere mich noch genau an den Moment, in dem mir bewusst wurde, dass KI unsere Arbeit – und unsere Zukunft – grundlegend verändern würde.

Als uns vor fünf Jahren die Gründer von Mist Systems (damals noch einer unserer Technologiepartner) besuchten, um verschiedene Geschäftsmöglichkeiten zu besprechen, stellten sie uns eine bahnbrechende Idee vor: Eine KI-gestützte Netzwerkplattform, die autonom Fehlerbehebungen durchführen und Netzwerkprobleme lösen kann, bevor die Benutzer etwas davon merken.

In der Theorie klang das natürlich gut. Aber da KI schon seit Jahrzehnten ein Schlagwort ohne eine derart konkrete Umsetzung war, zweifelte ich daran, dass sich dieses Potenzial tatsächlich erfüllen ließe – bis ich die KI von Mist Systems in Aktion sah. Unser IT-Team hatte zu diesem Zeitpunkt bereits eine Testversion genutzt und konnte sich selbst von den Vorteilen der Lösung von Mist Systems überzeugen. Dank der beispiellosen Genauigkeit und Geschwindigkeit war die Plattform tatsächlich in der Lage, Probleme in Echtzeit zu diagnostizieren und zu beheben.

In diesem Moment wurde mir klar, dass KI in der Tat ein unglaubliches Potenzial bieten würde – nicht nur für Juniper, sondern auch für den Rest der Welt.

Wie viele von Ihnen sicher wissen, ist die AIOps-Plattform inzwischen einer der Grundpfeiler der Strategie von Juniper. Während der Rest der Branche immer noch diskutiert, haben wir bereits die 7. Generation unserer branchenführenden KI-Lösung veröffentlicht, die das Netzwerk revolutioniert und den Weg für herausragende Benutzererfahrungen wie diese geebnet hat: Bei einem globalen Softwareunternehmen konnte die Anzahl der Supporttickets weltweit um 90 % reduziert werden. Bei einem multinationalen Einzelhändler sank die Zahl der Fälle, bei denen Techniker die Ladengeschäfte vor Ort besuchen mussten, um 85 %. Und einem national operierenden Mobilfunkanbieter gelang die schnellste Einrichtung eines Zweigstellennetzwerks in der gesamten Geschichte des Unternehmens.

Unsere KI-gestützte Juniper Mist Platform hat bereits die Arbeitsweise bei Tausenden von Unternehmen revolutioniert.

Doch das ist erst der Anfang.

Die Effektivität der Plattform von Mist Systems überzeugte uns davon, dass es nur eine Frage der Zeit war, bis KI-Anwendungen sich allgemein durchsetzen und der Umfang KI-basierter Modelle und Datencenter enorm steigen würde.

All dies eröffnet wiederum deutlich mehr Chancen für Juniper.

Das KI-gestützte Datencenter als Knotenpunkt in der KI-Revolution

Vor einiger Zeit stellten Chiphersteller fest, dass sich ihre Grafikprozessoren (Graphics Processing Units, GPUs) für den Gaming-Bereich auch ausgezeichnet für Lern- und Inferenzprozesse der KI eignen.

Doch eine einzelne GPU bietet nur eine begrenzte Kapazität. KI/ML-Cluster umfassen heute Hunderte oder manchmal sogar Tausende von GPUs, um die enorme Parallelrechenleistung aufzubringen, die für das Training moderner KI-Modelle notwendig ist.

Das Netzwerk dient dabei als Fundament, um diese GPUs miteinander zu verbinden und ein einheitliches und äußerst leistungsstarkes System für die KI-Verarbeitung zu schaffen.

In der Vergangenheit haben bereits andere revolutionäre Technologien wie die Cloud, Mobilgeräte oder Streaming-Dienste die Entwicklung der Netzwerke vorangetrieben, aber die Menge des Datenverkehrs, der durch verteilte Workloads für maschinelles Lernen in Datencentern generiert wird, übertrifft alle bisherigen Anwendungen. Da KI große Datensätze übertragen und Milliarden – oder sogar Billionen – Modellparameter auflösen muss, werden Netzwerke so stark belastet wie nie zuvor.

Konkret bedeutet das: Auf einem typischen GPU-Cluster, den unsere Kunden implementieren, entspricht der Netzwerkverkehr bei maximaler Leistung pro Sekunde in etwa dem gesamten Internetverkehr der USA. Hinzu kommt, dass ein einzelner GPU-Server bis zu 400.000 US-Dollar kosten kann. Daher hat die maximale Auslastung der GPUs bzw. die Minimierung des Leerlaufs der GPUs in einem KI-gestützten Datencenter höchste Priorität.

Für die Verteilung der Workloads auf die GPUs und deren Synchronisierung für das Training von KI-Modellen ist ein neuer Netzwerktyp erforderlich, der den Abschluss von Aufgaben (Job Completion Time, JCT) beschleunigen und die Zeit, die das System auf den Abschluss der Berechnungen der letzten GPU warten muss (Tail Latency), minimieren kann.

Datencenter-Netzwerke, die KI und ML unterstützen sollen, müssen daher über spezielle Funktionen für das Überlastungsmanagement, Load Balancing, Latenzen und insbesondere die Minimierung der JCT verfügen. Bei diesen Systemattributen gehört Juniper schon seit Jahren zu den Vorreitern. Da die Modelle und die Datensätze weiter anwachsen werden, müssen ML-Teams mehr GPUs in ihre Cluster aufnehmen. Die Netzwerk-Fabric sollte eine nahtlose Skalierung ermöglichen, ohne dass dabei die Leistung beeinträchtigt wird oder Engpässe bei der Datenübertragung entstehen.

Ich habe meine Karriere als Netzwerktechniker bei Juniper in der Entwicklung hochspezialisierter ASICs begonnen, die das Wachstum des Internets in den 90er-Jahren ermöglichten. Dabei habe ich die Innovationszyklen, die unsere Branche zu immer größeren Leistungen in Bezug auf Skalierbarkeit, Performance und Geschwindigkeit getrieben haben, direkt miterlebt.

KI-gestützte Netzwerke stellen einen entscheidenden und gravierenden Wendepunkt dar, der uns noch viele Jahre vor komplexe technische Herausforderungen stellen wird. Ich bin davon überzeugt, dass Juniper hervorragend aufgestellt ist, um diese Wende zu unterstützen. Wir berücksichtigen dabei drei Bereiche, die ich die drei Gebote für KI-gestützte Datencenter-Netzwerke nenne:

1. Hohe Leistung
Für die maximale Auslastung der GPU – dem wichtigsten Wirtschaftsfaktor beim Training von KI-Modellen – ist ein Netzwerk erforderlich, das die JCT optimiert und die Tail Latency minimiert. Je schneller Modelle trainiert werden, desto schneller liefern sie auch Ergebnisse. Gleichzeitig sinken die Kosten für das Datencenter aufgrund optimierter Computing-Ressourcen.

Juniper hat schon immer diverse Siliziumtechnologien unterstützt, sodass unsere Kunden verschiedene Möglichkeiten bei der Wahl von Spine-Leaf-Topologien und der Vernetzung von Datencentern haben, um Faktoren wie die Energieeffizienz und die Skalierbarkeit zu optimieren. Wir stellen ein vielfältiges Portfolio von Systemen bereit, die auf intern entwickelten und Drittanbieter-Siliziumtechnologien basieren und die größten Netzwerke weltweit unterstützen. Gleichzeitig bieten wir unseren Kunden die Flexibilität, die sie benötigen, um ihre jeweiligen Anforderungen und Vorgaben in den verschiedenen Phasen der KI-Implementierung zu erfüllen.

2. Offene Infrastruktur
Eine hohe Leistung ist entscheidend und daher wird auch stark in diesen Bereich investiert, doch auch die Wirtschaft muss berücksichtigt werden. Das Kernelement der Wirtschaft ist der Wettbewerb und dieser wiederum basiert auf Offenheit. Wir konnten das in unserer Branche bereits in der Vergangenheit beobachten. Wäre dies eine Wette, würde ich auf Ethernet setzen. Auch in diesem Fall. Eine offene Plattform ermöglicht maximale Innovation. Proprietäre Technologien sind auch weiterhin wichtig, aber nur selten kann ein einzelner Anbieter mit seinen Innovationen am Rest des Markts vorbeiziehen – und schon gar nicht in Umgebungen, in denen so viel auf dem Spiel steht. Juniper unterstützt den Ethernet-Standard und das umfassende Anbieternetzwerk, einschließlich des neuen Ultra Ethernet Consortium, das sich zum Ziel gesetzt hat, Kosten zu reduzieren, Innovationen voranzutreiben und damit letztendlich proprietäre Angebote wie InfiniBand zu übertreffen.

Ebenso wie die zahlreichen anderen Ethernet-Partner entwickelt auch Juniper stets neue Netzwerktechnologien, die den Datentransfer beschleunigen, eine verlustfreie Übertragung ermöglichen und das Überlastungsmanagement verbessern – alles kritische Aspekte für die KI-Revolution.

3. Experience-First Networking
Datencenter-Netzwerke werden immer komplexer und der Fabric müssen neue Protokolle hinzugefügt werden, um die Leistungsanforderungen KI-gestützter Workloads erfüllen zu können. Intent-based Automation hilft Netzwerkbetreibern, die zunehmende Komplexität zu reduzieren. Juniper setzt beim Datencenter auf Kompatibilität mit mehreren Anbietern und die gezielte Ausrichtung auf den Betrieb. Wir haben Junos und Apstra, unserer Management- und Automatisierungslösung für die Datencenter-Fabric, Erweiterungen für KI-Cluster hinzugefügt. Apstra ist übrigens die branchenweit einzige Plattform dieser Art, die mit Produkten verschiedener Anbieter kompatibel ist. Denn Offenheit hilft wenig, wenn Sie nach der Anschaffung auf bestimmte Anbieter beschränkt sind.

KI wird bereits weitflächig eingesetzt und daran wird sich auch in Zukunft nichts ändern.

Juniper hat schon gezeigt, wie sich mithilfe von KI das Management von kabelgebundenen, drahtlosen und Wide-Area-Netzwerken simplifizieren und dadurch sowohl die Benutzererfahrung erheblich verbessern als auch die Arbeit der Netzwerkbetreiber erleichtern lässt. Doch die zunehmende Belastung der Netzwerke durch maschinelles Lernen und Large Language Models (LLMs) wird immer neue Probleme verursachen.

Diese Probleme stellen eine enorme Herausforderung dar und müssen durch innovative Ansätze gelöst werden. Doch die größten Herausforderungen haben Juniper schon immer zu Höchstleistungen angespornt. Unser Ziel ist es, Verbindungen zu ermöglichen und Wandel zu unterstützen – und zwar in jeder Hinsicht. Dabei stützen wir uns auf unsere bewährten Lösungen für eine hohe Leistung und unseren Fokus auf „Experience-First“-Ansätze.

Ich bin davon überzeugt, dass der Ansatz von Juniper für Datencenter-Netzwerke eine neue KI-Ära gedeihen lassen wird.