In prima linea nella rivoluzione dell'AI: perché ha trasformato per sempre le reti

15 agosto 2023

Di Rami Rahim, CEO, Juniper Networks


Ricordo il momento in cui ho capito che l'AI avrebbe cambiato tutto.

Cinque anni fa, quando i fondatori di Mist Systems (all'epoca nostro partner tecnologico) entrarono nei nostri uffici per esaminare insieme nuove opportunità di business, ci prospettarono un'idea rivoluzionaria: una piattaforma di rete basata su AI capace di risolvere autonomamente i problemi della rete prima che questi arrivassero agli utenti.

Sembrava tutto incredibile. Ma poiché l'AI era un argomento di moda già da decenni, sono rimasto scettico sul suo potenziale fino a quando non ho visto la vera AI di Mist in azione. In realtà, il nostro team IT aveva già intuito le capacità di Mist con un'implementazione di prova in corso d'opera. La piattaforma era letteralmente in grado di autodiagnosticarsi e risolvere i problemi in tempo reale con un livello di precisione e una velocità impressionanti.

È stato in quel momento che ho capito il vero potenziale dell'AI, sia per Juniper che per il mondo.

Come molti di voi sanno, la nostra piattaforma AIOps è oggi un elemento essenziale della strategia di Juniper. Mentre molti nella nostra industria si limitano a parlare, noi siamo alla settima generazione della nostra AI leader di settore che ha già rivoluzionato le reti e aperto la strada a esperienze utente eccezionali. Alcuni dati: una riduzione del 90% dei ticket di assistenza a livello mondiale di una softfware house globale, l'85% in meno di visite ai negozi di un retailer multinazionale, la più rapida implementazione di una rete di filiali nella storia di un operatore mobile nazionale.

È chiaro che la nostra piattaforma Mist basata su AI ha cambiato la vita a migliaia di aziende.

Ma questo è solo l'inizio.

Avendo assistito al successo di Mist, sapevamo che in poco tempo le applicazioni di AI sarebbero esplose a tutti i livelli, e così anche la diffusione dei modelli e dei data center basati su AI.

Ed è qui che la situazione si fa ancora più interessante per Juniper.

Il data center AI: Connettersi alla rivoluzione AI

Qualche tempo fa, le aziende produttrici di silicio hanno scoperto che le unità di elaborazione grafica (GPU) realizzate per i giochi sono molto adatte al tipo di carichi di lavoro di apprendimento e inferenza eseguiti dall'AI.

Ma una singola GPU può svolgere da sola un numero limitato di elaborazioni AI. I moderni cluster AI/ML includono centinaia o talvolta migliaia di GPU che forniscono l'enorme potenza di calcolo parallela che serve ad addestrare i modelli AI di oggi.

E ovviamente, è la rete che connette queste GPU tra loro e le rende capaci di operare come un unico sistema ad alta potenza di elaborazione AI.

Le precedenti rivoluzioni tecnologiche, come il cloud, i servizi mobili o di streaming, hanno innalzato il livello delle reti, ma il traffico generato nei data center dai carichi di lavoro distribuiti di machine-learning è paurosamente superiore a quello della maggior parte delle altre applicazioni. I requisiti dell'AI per comunicare grandi dataset e risolvere miliardi, se non trilioni, di parametri di modelli sollecitano le reti come mai prima.

Per capire meglio: un tipico cluster di GPU che i nostri clienti vogliono distribuire con massime prestazioni è attraversato ogni secondo da un traffico di rete pari a quello di tutta la rete Internet americana. E per capire l'economia di un data center AI, ricordiamo che i server GPU possono costare fino a 400.000 dollari l'uno. Quindi, massimizzare l'utilizzo delle GPU e ridurre al minimo i loro tempi di inattività è uno dei fattori centrali nella progettazione dei data center AI.

Distribuire i carichi di lavoro tra le GPU e sincronizzarli per addestrare il modello AI richiede un nuovo tipo di rete in grado di accelerare il "tempo di completamento del lavoro" (JCT) e di ridurre il tempo in cui il sistema attende che l'ultima GPU termini i suoi calcoli ("latenza di coda").

Le reti dei data center ottimizzate per AI/ML, devono quindi avere capacità speciali di controllo della congestione, bilanciamento del carico, latenza e, soprattutto, riduzione al minimo del JCT. E queste sono caratteristiche dei sistemi in cui Juniper eccelle da anni. Inoltre, con le dimensioni dei modelli e i dataset che continuano a crescere, i professionisti del ML devono inserire più GPU nei loro cluster. Il fabric di rete deve a sua volta supportare una scalabilità integrata senza cali prestazionali e senza rallentare le comunicazioni.

La mia carriera di ingegnere è iniziata in Juniper, dove ho progettato quegli ASIC specialistici che hanno sostenuto la crescita di Internet negli anni '90. Nel corso degli anni ho quindi assistito in prima fila ai cicli di innovazione che hanno permesso al nostro settore di raggiungere nuovi livelli di scala, prestazioni e velocità.

Il networking AI rappresenta un punto di svolta unico in questa epoca e negli anni a venire ci porrà di fronte a sfide tecniche complesse. Io credo che Juniper abbia tutte e carte in regola per essere parte di questo futuro. Per noi questo significa attenerci a quelli che io chiamo i tre comandamenti delle reti di data center AI:

1.  Alte prestazioni
Massimizzare l'uso delle GPU, che rappresenta il principale fattore economico nell'addestramento dei modelli AI, richiede una rete che ottimizzi il JCT e riduca al minimo la latenza di coda. Un addestramento più rapido dei modelli significa ottenere risultati in tempi più rapidi, ma anche avere un data center meno costoso con risorse di calcolo meglio ottimizzate.

Juniper è stata fin dal primo giorno indipendente dal silicio, e questa scelta offre ai nostri clienti varie opzioni per le interconnessioni spine, leaf e dei data center, ottimizzando più fattori come l'efficienza energetica e la scalabilità. Offriamo un ampio portafoglio di sistemi basati su silicio progettato da noi e da terze parti che fanno funzionare le più grandi reti del pianeta, e forniscono al tempo stesso a clienti in diverse fasi del percorso verso l'AI la flessibilità necessaria per le loro esigenze e le loro attuali limitazioni.

2.  Infrastruttura aperta
Le prestazioni contano per tutti e tutti sono disposti a investire. Ma poi... l'economia prende il sopravvento. L'economia si basa sui competitor e i competitor si basano sui nuovi trend. Sono situazioni viste mille volte nel nostro settore. E se devo scommettere, io scommetto sulla vittoria dell'Ethernet. Anche stavolta. Una piattaforma aperta massimizza l'innovazione. Non dico che le tecnologie proprietarie non abbiano un loro ruolo, ma raramente un singolo fornitore di tecnologia ha superato il resto del mercato. E non succede mai in ambienti in cui la posta in gioco è così alta. Juniper sostiene fermamente lo standard Ethernet e il suo potente ecosistema di vendor, tra cui il nuovo Ultra Ethernet Consortium, che fa diminuire i costi, stimola l'innovazione e alla fine ha la meglio su strategie proprietarie come InfiniBand.

Insieme al resto del grande ecosistema Ethernet, Juniper continua a innovare le tecnologie di rete che accelerano il trasferimento dei dati, forniscono una trasmissione senza perdite e migliorano il controllo della congestione: aspetti critici per la rivoluzione dell'AI.

3.  Operazioni Experience-First
Le reti dei data center sono sempre più complesse ed è necessario aggiungere nuovi protocolli al fabric per soddisfare le richieste di prestazioni dei carichi di lavoro AI. Anche se le complessità continueranno ad aumentare, l'automazione basata sugli intenti protegge l'operatore di rete da tali complessità. Juniper guarda ai data center con una mentalità multivendor e orientata alle operazioni. Stiamo aggiungendo estensioni per i cluster AI a Junos e alla nostra soluzione di gestione e automazione del fabric dei data center Apstra. Inoltre, Apstra è l'unica piattaforma multivendor del settore. Infatti: a cosa serve una nuova apertura se dopo il primo acquisto rimani bloccato sul vendor che avevi scelto?

L'intelligenza artificiale ormai è qui e non si può tornare indietro.

Juniper ha già dimostrato l'impatto dell'AI nel semplificare la gestione delle reti cablate, wireless e WAN per migliorare notevolmente le esperienze degli utenti finali e la vita degli operatori di rete. Ma la pressione che il machine learning e i modelli di linguaggio di grandi dimensioni esercitano sulle reti ci richiede di continuare a innovare e a risolvere nuove sfide.

Sì, queste sfide sono estremamente difficili. Ma risolvere i problemi più difficili al mondo è da sempre il compito di Juniper. Il nostro obiettivo è creare connessioni e favorire il cambiamento, in qualsiasi forma avvenga. Siamo fedeli alla nostra vocazione alle alte prestazioni e alle operazioni "Experience-First".

Sono certo che la strategia di Juniper per il networking dei data center aiuterà la nascita di una nuova era dell'intelligenza artificiale.