De AI-revolutie omarmd, of Hoe AI netwerken voorgoed veranderde
15 augustus 2023
Door Rami Rahim, CEO, Juniper Networks
Ik kan me nog goed herinneren wanneer ik me realiseerde dat AI alles zou veranderen.
Vijf jaar geleden stapten de oprichters van Mist Systems, destijds een van onze technologiepartners, ons kantoor binnen voor een overleg. Zij kwamen met een baanbrekend idee: een AI-gestuurd netwerkplatform dat zelfstandig netwerkproblemen kon troubleshooten en oplossen voordat de gebruikers die zelfs maar hadden opgemerkt.
Dat klonk allemaal geweldig. Maar aangezien het buzzword AI toen al decennialang rondzoemde, stond er ik sceptisch tegenover – totdat ik de echte AI van Mist in actie zag. Onze eigen IT-mensen hadden al gezien wat Mist allemaal kon in een testimplementatie waar ze mee bezig waren. Het platform kon letterlijk een diagnose bij zichzelf stellen en problemen in real time verhelpen dankzij een ongeëvenaarde nauwkeurigheid en snelheid.
Daardoor realiseerde ik me hoe groot AI zou gaan worden; niet alleen voor Juniper, maar voor de hele wereld.
Zoals velen van jullie weten is ons AIOps-platform sindsdien uitgegroeid tot de hoeksteen van onze strategie. Terwijl de rest van de bedrijfstak er nog steeds alleen maar over praat, heeft onze toonaangevende AI inmiddels zijn 7e generatie bereikt. We hebben een revolutie ontketend in het netwerk en de weg vrijgemaakt voor een geweldige gebruikerservaring. Bij een grote softwareleverancier is het aantal tickets wereldwijd met 90% gedaald. Bij een internationale retailer is het aantal supportbezoeken aan winkels met 85% teruggebracht. Een landelijke mobiele operator kon het netwerk voor zijn vestigingen in recordtijd uitrollen.
Het moge duidelijk zijn dat ons AI-gestuurde Mist-platform een gamechanger is voor duizenden organisaties.
En dat is nog maar het begin.
Nadat we het succes van Mist hadden ervaren, was het slechts een kwestie van tijd voordat het aantal AI-toepassingen een enorme vlucht zou nemen; en daarmee zouden AI-modellen en datacenters aanzienlijk groter worden.
Dit is precies waar het voor Juniper nog interessanter wordt.
Het AI-datacenter: de AI-revolutie verbonden
Onlangs ontdekten chipmakers dat de grafische chips (GPU's) die ze produceren voor gaming zeer geschikt zijn voor de leer- en inferentieworkloads die door AI worden uitgevoerd.
Maar een enkele GPU kan natuurlijk maar een beperkte hoeveelheid AI-verwerking doen. Daarom zijn er nu zogeheten AI/ML-clusters, die bestaan uit honderden of zelfs duizenden GPU's die de enorme parallelle rekenkracht leveren voor het trainen van de hedendaagse AI-modellen.
En het is natuurlijk het netwerk dat deze GPU's samenbrengt en ervoor zorgt dat ze kunnen functioneren als een enkel, superkrachtig AI-verwerkingssysteem.
Eerdere technologische revoluties zoals de cloud, mobiele telefoons en streamingservices hebben de grenzen van het netwerk al flink verlegd. Maar dat was niets vergeleken bij de hoeveelheid verkeer in datacenters die wordt gegenereerd door verspreide ML-workloads. Het communiceren van grote datasets en verwerken van miljoenen of zelfs biljoenen modelparameters zet het netwerk onder druk als nooit tevoren.
Om dit in perspectief te plaatsen: in een typische GPU-cluster die onze klanten zouden inzetten op maximale capaciteit, is de hoeveelheid netwerkverkeer per seconde gelijk aan de helft van al het internetverkeer in Amerika. En om u een idee te geven van de kosten van een AI-datacenter: de prijs van een GPU-server kan oplopen tot zo'n 400.000 dollar. Daarmee is het optimaliseren van de benuttingsgraad van deze GPU's en het minimaliseren van inactieve tijd een van de belangrijkste ontwerpaspecten van een AI-datacenter.
Het verdelen van de workloads over de GPU's en de synchronisatie daarvan voor het trainen van het AI-model vereist een nieuw type netwerk, dat de zogeheten 'job completion time' (JCT) versnelt en de tijd die het systeem staat te wachten totdat de laatste GPU zijn berekeningen heeft voltooid, de 'tail latency', zo kort mogelijk houdt.
Datacenternetwerken die zijn geoptimaliseerd voor AI/ML moeten dus speciaal zijn ingericht voor het beheer van congestie, loadbalancing, latency en met name het minimaliseren van de JCT. Dit zijn systeemkenmerken waarin Juniper al jarenlang in uitblinkt. Naarmate de modellen en datasets groter worden, zal ook het aantal GPU's in de cluster moeten stijgen. Daarom moet de netwerkfabric naadloos kunnen schalen zonder verlies van performance of het ontstaan van nieuwe bottlenecks in de communicatie.
Ik ben opgeleid als technicus en begon mijn carrière bij Juniper met het bouwen van zeer gespecialiseerde ASIC's, die hebben bijgedragen aan de groei van het internet in de jaren 90. In de afgelopen jaren heb ik van dichtbij kunnen meemaken hoe de diverse innovaties in de branche hebben geleid tot een steeds grotere schaal, betere performance en hogere snelheid.
AI-netwerken zijn zo'n keerpunt dat eens in een generatie voorkomt en waarvan de ingewikkelde technische uitdagingen ons jarenlang zullen bezighouden. Ik geloof dat Juniper alle puzzelstukjes in handen heeft om deze toekomst te realiseren. Voor ons betekent dit dat we ons moeten houden aan de zogenoemde drie geboden van AI-datacenternetwerken:
1. High-performance
Voor het maximaliseren van de GPU-benutting, de belangrijkste economische factor bij het trainen van AI-modellen, is een netwerk nodig dat de JCT versnelt en de tail latency verkort. Als modellen sneller worden getraind heb je niet alleen sneller resultaten, maar is het datacenter minder duur en wordt rekenkracht optimaal benut.
Juniper is vanaf het begin onafhankelijk geweest van chipmakers; dit biedt onze klanten verschillende opties voor optimalisatie met spine-, leaf- en DCI-topologieën voor verschillende factoren, zoals energie-efficiëntie en schaal. We bieden een breed scala aan systemen op basis van eigen chips en chips van derden die worden gebruikt in de grootste netwerken ter wereld. Daarmee bieden we onze klanten de flexibiliteit om systemen in te richten op basis van hun behoeften en beperkingen.
2. Open infrastructuur
Performance telt en daarom investeert iedereen erin. Maar dan komt de economie om de hoek kijken. De aanjager van economie is concurrentie, en de aanjager van concurrentie is openheid. Dit hebben we al vaker gezien in onze branche. En als ik zou moeten gokken, zou ik zeggen dat ethernet gaat winnen. Alweer. Een open platform zorgt voor maximale innovatie. Ik zeg niet dat gesloten technologieën geen belangrijke rol kunnen spelen, maar het komt zelden voor dat één technologieleverancier de rest van de markt achter zich laat wanneer het aankomt op innovatie. En in omgevingen waarin zoveel op het spel staat, zal zoiets eenvoudigweg niet gebeuren. Juniper is een groot voorstander van ethernet en het uitgebreide onderliggende netwerk van leveranciers daarvan. Zoals het nieuwe Ultra Ethernet Consortium dat kosten verlaagt, innovatie stimuleert en uiteindelijk gesloten benaderingen zoals InfiniBand achter zich zal laten.
Samen met de rest van het uitgebreide ethernet-ecosysteem blijft Juniper innoveren op het gebied van netwerktechnologieën voor sneller datatransport, verliesvrije transmissie en betere controle over congestie; allemaal kritieke factoren voor het welslagen van de AI-revolutie.
3. Experience-first
Datacenternetwerken worden steeds complexer en er moeten nieuwe protocollen aan de fabric worden toegevoegd om te kunnen voldoen aan de performancevereisten van AI-workloads. Maar terwijl die complexiteit blijft toenemen, wordt de netwerkbeheerder daartegen beschermd door intent-based automatisering. Juniper benadert datacenters op een manier waarbij kan worden gewerkt met meerdere leveranciers, en wij geven eenvoudige exploitatie de hoogste prioriteit. We breiden AI-clusters uit met nieuwe extensies voor Junos en Apstra, onze oplossing voor het beheer en de automatisering van datacenterfabrics. Apstra is trouwens het enige multivendor-platform in zijn soort. Want wat heb je aan openheid als je na de eerste aankoop meteen operationeel vastzit?
AI is een realiteit en er is geen weg meer terug.
Juniper heeft al bewezen hoe AI het beheer van bekabelde netwerken, draadloze netwerken en WAN's vereenvoudigt, waarmee zowel de eindgebruikerservaring en het leven van de netwerkbeheer er drastisch op vooruit zijn gegaan. Maar door machine learning en grote taalmodellen staan netwerken onder zo'n hoge druk dat we gedwongen zijn om te blijven innoveren en nieuwe uitdagingen op te lossen.
En die uitdagingen zijn vanzelfsprekend extreem ingewikkeld. Het oplossen van de moeilijkste problemen ter wereld is echter altijd een van de drijfveren van Juniper geweest. We spannen ons tot het uiterste in om verbindingen tot stand te brengen en verandering mogelijk te maken, in welke vorm dan ook. Daarvoor gebruiken we onze geschiedenis van krachtige performance en onze obsessie met experience-first netwerken.
Ik weet zeker dat datacenternetwerken van Juniper zullen bijdragen aan een succesvol nieuw AI-tijdperk.