Wat zijn AI-datacenternetwerken?

Wat zijn AI-datacenternetwerken?

AI-datacenternetwerken verwijst naar de fabric van datacenternetwerken die kunstmatige intelligentie (AI) mogelijk maakt. Het ondersteunt de strenge schaalbaarheids-, prestatie- en lage latentie-vereisten van het netwerk voor AI- en machine learning (ML)-workloads, die vooral veeleisend zijn in de AI-trainingsfase.

In het begin van high-performance computing (HPC) en AI-trainingsnetwerken, werd InfiniBand, een eigen netwerktechnologie met hoge snelheid en lage latentie, aanvankelijk populair vanwege de snelle en efficiënte communicatie tussen servers en opslagsystemen. Vandaag de dag is het alternatief Ethernet, dat aanzienlijk terrein wint in de markt voor AI-datacenternetwerken en dat naar verwachting de dominante technologie zal worden.

Er zijn meerdere redenen waarom de ingebruikname van Ethernet groeit, maar activiteiten en kosten staan apart. De talentenpool van netwerkprofessionals die een Ethernetnetwerk kunnen bouwen en beheren in plaats van een eigen InfiniBand-netwerk is enorm, en er is een breed scala aan tools beschikbaar voor het beheer van dergelijke netwerken in vergelijking met InfiniBand-technologie, die voornamelijk via Nvidia wordt verkregen.

 

Welke AI-gestuurde vereisten worden aangepakt door AI-datacenternetwerken?

Generatieve AI blijkt over de hele wereld een transformatieve technologie te zijn. Generatieve AI en grote deep-learning AI-systemen in het algemeen, brengen nieuwe vereisten voor AI-datacenternetwerken met zich mee. Er zijn drie fasen voor het ontwikkelen van een AI-model:

  • Fase 1: Voorbereiding van gegevens: het verzamelen en samenstellen van gegevensets voor invoer in het AI-model.
  • Fase 2: AI-training: een AI-model aanleren om een specifieke taak uit te voeren door deze bloot te stellen aan grote hoeveelheden gegevens. Tijdens deze fase leert het AI-model patronen en relaties binnen de trainingsgegevens om virtuele synapsen te ontwikkelen die intelligentie nabootsen.
  • Fase 3: AI-inferentie: werken in een echte omgeving om voorspellingen te maken of beslissingen te nemen op basis van nieuwe, onzichtbare gegevens.

Fase 3 wordt over het algemeen ondersteund met bestaande datacenter- en cloudnetwerken. Fase 2 (AI-training) vereist echter uitgebreide gegevens en rekenbronnen om het iteratieve proces te ondersteunen, waarbij het AI-model leert van continu verzamelde gegevens om de parameters te verfijnen. Grafische verwerkingseenheden (GPU's) zijn zeer geschikt voor AI-leren en inferentieworkloads, maar moeten in clusters werken om efficiënt te zijn. Het opschalen van clusters verbetert de efficiëntie van het AI-model, maar verhoogt ook de kosten, dus het is van cruciaal belang om AI-datacenternetwerken te gebruiken die de efficiëntie van het cluster niet belemmeren.

Vele, zelfs tienduizenden GPU-servers (met kosten van meer dan $ 400.000 per server in 2023) moeten verbonden zijn om grote GPU-servers te trainen. Als gevolg daarvan zijn het optimaliseren van de voltooiingstijd van taken en het minimaliseren of elimineren van de tail-latentie (een voorwaarde waarbij uitschieters in AI-workloads de voltooiing van de volledige AI-taak vertragen) belangrijk voor het optimaliseren van het rendement op GPU-investering. In deze gebruikssituatie moet het AI-datacenternetwerk 100% betrouwbaar zijn en geen verslechtering van efficiëntie in het cluster veroorzaken.   

 

Hoe werken AI-datacenternetwerken?

Hoewel prijzige GPU-servers meestal de totale kosten van AI-datacenters opdrijven, is AI-datacenternetwerken van cruciaal belang omdat een goed presterend netwerk vereist is om het GPU-gebruik te maximaliseren. Ethernet is een open, bewezen technologie die het meest geschikt is om deze oplossing te bieden in een datacenternetwerkarchitectuur die is verbeterd voor AI. De verbeteringen omvatten congestiebeheer, loadbalancing en geminimaliseerde latentie om de voltooiingstijd van taken (JCT, Job Completion Time) te optimaliseren. Ten slotte zorgen vereenvoudigd beheer en automatisering voor betrouwbaarheid en doorlopende prestaties.

Fabric-ontwerp

Verschillende fabric-ontwerpen kunnen worden gebruikt in AI-datacenternetwerken; een any-to-any niet-blokkerende Clos-fabric wordt echter aanbevolen om het trainingskader te optimaliseren. Deze fabrics zijn gebouwd met behulp van een consistente netwerksnelheid van 400 Gbps (oplopend naar 800 Gbps) van de NIC naar leaf en door de spine. Afhankelijk van de grootte van het model en GPU-schaal kan een twee-laagse, drie-traps niet-blokkerende fabric of drie-laagse, vijf-traps niet-blokkerende fabric worden gebruikt.

Stroomcontrole en congestievermijding

Naast de fabric-capaciteit zijn er nog andere ontwerpoverwegingen die de betrouwbaarheid en efficiëntie van de algehele fabric vergroten. Deze overwegingen omvatten goed geproportioneerde fabric-interconnecties met het optimale aantal links en de mogelijkheid om onevenwichtigheden in de stroom te detecteren en te corrigeren om congestie en pakketverlies te voorkomen. Expliciete melding van congestie (ECN, Explicit Congestion Notification) met datacenter gekwantificeerde melding van congestie (DCQCN, Data Center Quantized Congestion Notification) plus prioriteitsgebaseerde stroomcontrole lossen onevenwichtigheden in de stroom op om verliesvrije transmissie te garanderen.

Om congestie te verminderen, wordt dynamische en adaptieve loadbalancing geïmplementeerd bij de switch. Dynamische loadbalancing herdistribueert stromen lokaal bij de switch voor gelijkmatige distributie. Adaptieve loadbalancing controleert het doorsturen van de stroom en volgende hoptabellen om onevenwichtigheden te identificeren en verkeer weg te sturen van overbelaste paden.

Wanneer congestie niet wordt vermeden, biedt ECN vroegtijdige kennisgeving aan applicaties. Tijdens deze perioden werken leafs en spines ECN-compatibele pakketten bij om afzenders te verwittigen dat er congestie is, waardoor de afzenders de transmissie vertragen om uitval van pakketten in transit te voorkomen. Als de eindpunten niet op tijd reageren, stelt PFC (Priority-based Flow Control) ethernetontvangers in staat om feedback te delen met zenders over de beschikbaarheid van buffers. Ten slotte kunnen leafs en spines tijdens perioden van congestie verkeer op specifieke links pauzeren of vertragen om congestie te verminderen en pakketuitval te voorkomen, waardoor verliesvrije transmissies voor specifieke verkeersklassen mogelijk zijn.

Schaal en prestaties

Ethernet heeft zich ontwikkeld als de open standaardoplossing bij uitstek om de zware eisen van high-performance computing en AI aan te kunnen. Het is in de loop der tijd geëvolueerd (met inbegrip van de huidige vooruitgang naar 800 GbE en datacenter bridging (DCB)) om sneller, betrouwbaarder en schaalbaarder te worden, waardoor het bij uitstek de keuze is voor het verwerken van hoge gegevensdoorvoer en lage latentievereisten die nodig zijn voor missiekritieke AI-applicaties.

Automatisering

Automatisering is het sluitstuk voor een effectieve AI-datacenternetwerkoplossing, hoewel niet alle automatisering gelijk is. Wil het honderd procent volstaan, dan moet de automatiseringssoftware experience-first activiteiten bieden. Het wordt gebruikt bij het ontwerpen, implementeren en beheren van het AI-datacenter op permanente basis. Het automatiseert en valideert de levenscyclus van het AI-datacenternetwerk van dag 0 tot dag 2+. Dit resulteert in herhaaldelijke en doorlopend gevalideerde AI-datacenterontwerpen en -implementaties die niet alleen menselijke fouten elimineren, maar ook profiteren van telemetrie en stroomgegevens om de prestaties te optimaliseren, proactieve probleemoplossing mogelijk te maken en uitval te voorkomen.   

 

Juniper's oplossing voor AI-datacenternetwerken bouwt voort op tientallen jaren aan netwerkervaring en AIOps-innovaties

Juniper's oplossing voor AI-datcenternetwerken bouwt voort op tientallen jaren ervaring met netwerken en AIOps-innovaties voor het voltooien van open, snel en eenvoudig beheer van op Ethernet gebaseerde AI-netwerkoplossingen. Deze schaalbare, niet-blokkerende fabrics met hoge capaciteit leveren de hoogste AI-prestaties, de snelste tijd voor voltooiing van taken en het meest efficiënte GPU-gebruik. Juniper's oplossing voor AI-datacenternetwerken maakt gebruik van drie fundamentele architectonische pijlers:

  • Enorme schaalbare prestaties: optimalisatie van de voltooiingstijd van taken en daardoor GPU-efficiëntie
  • Openheid volgens industriestandaard: het uitbreiden van bestaande datacentertechnologieën met industriegestuurde ecosystemen die innovatie bevorderen en de kosten op de lange termijn verlagen
  • Experience-first activiteiten: het automatiseren en vereenvoudigen van AI-datacenterontwerp, -implementatie en -activiteiten voor backend-, frontend- en opslagfabrics

Deze pijlers worden ondersteund door:

  • Een ontwerp van een verliesvrij AI-datacenternetwerk met hoge capaciteit dat profiteert van een any-to-any niet-blokkerende Clos-fabric, de meest veelzijdige topologie om AI-trainingskaders te optimaliseren
  • High-performance switches en routers, waaronder Juniper PTX-serie routers, gebaseerd op Juniper Express-silicium voor de spine/super spine, en QFX-serie switches, gebaseerd op Broadcom's Tomahawk ASIC's als leafswitches die AI-serverconnectiviteit bieden
  • Fabric-efficiëntie met stroomcontrole en het vermijden van botsingen
  • Open, op standaarden gebaseerde Ethernet-schaal en -prestaties met 800 GbE
  • Uitgebreide automatisering met Juniper Apstra®-software voor intent-based netwerken om de levenscyclus van het AI-datacenternetwerk van dag 0 tot dag 2+ te automatiseren en te valideren

 

Veelgestelde vragen over AI-datacenternetwerken

Welk probleem lossen AI-datacenternetwerken op?

AI-datacenternetwerken lossen de prestatievereisten van generatieve AI en grote deep-learning AI-modellen in het algemeen op. AI-training in het bijzonder, vereist uitgebreide gegevens en rekenbronnen om het iteratieve proces te ondersteunen, waarbij het AI-model leert van continu verzamelde gegevens om de parameters te verfijnen. Grafische verwerkingseenheden (GPU's) zijn zeer geschikt voor AI-leren en inferentieworkloads, maar moeten in clusters werken om efficiënt te zijn. Het opschalen van clusters verbetert de efficiëntie van het AI-model, maar verhoogt ook de kosten, dus het is van cruciaal belang om AI-datacenternetwerken te gebruiken die de efficiëntie van het cluster niet belemmeren.

Vele, zelfs tienduizenden GPU-servers (met kosten van meer dan $ 400.000 per server in 2023) moeten verbonden zijn om grote modellen te trainen. Als gevolg daarvan zijn het maximaliseren van de voltooiingstijd van taken en het minimaliseren of elimineren van de tail-latentie (een voorwaarde waarbij uitschieters in AI-workloads de voltooiing van de volledige AI-taak vertragen) belangrijk voor het optimaliseren van het rendement op GPU-investering. In deze gebruikssituatie moet het AI-datacenternetwerk 100% betrouwbaar zijn en geen verslechtering van efficiëntie in het cluster veroorzaken.   

Wat zijn de voordelen van Ethernet ten opzichte van InfiniBand voor AI-datacenternetwerken?

In het begin van high-performance computing (HPC) en AI-trainingsnetwerken, werd InfiniBand, een eigen netwerktechnologie met hoge snelheid en lage latentie, aanvankelijk populair vanwege de snelle en efficiënte communicatie tussen servers en opslagsystemen. Vandaag de dag wint het alternatief Ethernet aanzienlijk terrein in de markt voor AI-datacenternetwerken en zal deze naar verwachting de dominante technologie worden.

Terwijl eigen technologieën zoals InfiniBand voor vooruitgang en innovatie kunnen zorgen, zijn ze duur en brengen ze premies in rekening waar concurrerende vraag- en aanbodmarkten de kosten niet kunnen reguleren. Daarnaast is de talentenpool van netwerkprofessionals die een Ethernet-netwerk kunnen bouwen en beheren in plaats van een eigen InfiniBand-netwerk enorm, en is er een breed scala aan tools beschikbaar om dergelijke netwerken te beheren in vergelijking met InfiniBand-technologie, die voornamelijk via Nvidia wordt verkregen.

Naast IP is Ethernet de meest gebruikte netwerktechnologie ter wereld. Ethernet is geëvolueerd om sneller, betrouwbaarder en schaalbaarder te worden, waardoor het de voorkeur heeft voor het verwerken van de hoge gegevensdoorvoer en lage latentievereisten van AI-applicaties. De progressie naar 800 GbE en datacenterbridging (DCB) Ethernet-verbeteringen maken verliesvrije gegevensoverdracht met hoge capaciteit, lage latentie mogelijk, waardoor Ethernet-fabrics zeer gewenst zijn voor AI-verkeer met hoge prioriteit en missiekritiek AI-verkeer.

Welke oplossingen/producties/technologie voor AI-datacenternetwerken biedt Juniper?

Juniper’s oplossing voor AI-datacenternetwerken biedt een verliesvrij datacenternetwerkontwerp met hoge capaciteit dat gebruik maakt van een any-to-any niet-blokkerende Clos-fabric, de meest veelzijdige topologie voor het optimaliseren van AI-trainingskaders. De oplossing maakt gebruik van open, hoogwaardige, op standaarden gebaseerde Ethernet-switches en routers met interfaces tot 800 GbE. Daarnaast gebruikt het Juniper Apstra Intent-based netwerken software om de levenscyclus van het AI-datacenternetwerk te automatiseren en valideren, van dag 0 tot dag 2+.