Cos'è il networking di data center AI?

Cos'è il networking di data center AI?

Per networking di data center con AI si intende il fabric del networking di data center basato sull'intelligenza artificiale (AI). Supporta i rigorosi requisiti di scalabilità della rete, prestazioni e bassa latenza dei carichi di lavoro dell'AI e del machine learning (ML), che sono particolarmente impegnativi nella fase di addestramento dell'AI. 

Nelle prime reti di calcolo ad alte prestazioni (HPC) e di addestramento AI, InfiniBand, una tecnologia di networking proprietaria ad alta velocità e bassa latenza, aveva inizialmente acquisito popolarità per la sua comunicazione rapida ed efficiente tra server e sistemi di archiviazione. Oggi l'alternativa aperta è Ethernet, che sta conquistando una posizione significativa nel mercato del networking di data center AI e si prevede che diventerà la tecnologia dominante.

I motivi per la crescente adozione di Ethernet sono molteplici, ma spiccano le operazioni e i costi. Il pool di esperti professionisti della rete in grado di creare e amministrare una rete Ethernet rispetto a una rete InfiniBand proprietaria è enorme e per gestire tali reti è presente un'ampia gamma di strumenti rispetto alla tecnologia InfiniBand, resa disponibile principalmente tramite Nvidia.

 

Quali requisiti basati su AI sono soddisfatti dal networking di data center AI?

L'AI generativa si sta dimostrando una tecnologia trasformativa in tutto il mondo. L'AI generativa, e i grandi modelli AI di deep learning in generale, comportano nuovi requisiti di networking di data center AI. Lo sviluppo di un modello AI si basa su tre fasi:

  • Fase 1: preparazione dei dati – la raccolta e la selezione dei set di dati da inserire nel modello AI.
  • Fase 2: addestramento dell'AI – istruire un modello AI affinché esegua un compito specifico esponendolo a grandi quantità di dati. Durante questa fase, il modello AI apprende pattern e relazioni all'interno dei dati di addestramento per sviluppare sinapsi virtuali che imitano l'intelligenza umana.
  • Fase 3: inferenza dell'AI – operare in un ambiente reale per effettuare previsioni o prendere decisioni sulla base di dati nuovi e sconosciuti.

La fase 3 è di solito supportata dalle reti cloud e dei data center esistenti. Tuttavia, la fase 2 (addestramento dell'AI) richiede ampie risorse di calcolo e di dati per supportare i processi iterativi durante i quali il modello AI impara incessantemente dai dati raccolti per perfezionare i suoi parametri. Le unità di elaborazione grafica (GPU) sono adatte per i carichi di lavoro di apprendimento e inferenza dell'AI, ma devono operare in cluster per essere efficienti. La scalabilità dei cluster migliora l'efficienza del modello AI, ma aumenta anche i costi; quindi, è fondamentale utilizzare un networking di data center AI che non ostacoli l'efficienza dei cluster stessi.

Per addestrare modelli di grandi dimensioni è necessario connettere molti, se non persino decine di migliaia di server GPU (con costi superiori ai 400.000 dollari per server nel 2023). Di conseguenza, l'ottimizzazione dei tempi di completamento delle operazioni e la riduzione al minimo o l'eliminazione della latenza in coda (una condizione in cui i carichi di lavoro AI anomali rallentano il completamento del suo intero lavoro) sono fondamentali per ottimizzare il ritorno sull'investimento delle GPU. In questo caso d'uso, la rete di data center AI deve essere affidabile al 100% e non causare un peggioramento dell'efficienza nel cluster.   

 

Come funziona il networking di data center AI?

Sebbene i costosi server GPU determinino, in genere, i costi complessivi dei data center AI, il networking di data center AI è fondamentale perché è necessaria una rete ad alte prestazioni per massimizzare l'utilizzo delle GPU. Ethernet è una tecnologia aperta e collaudata, adatta a fornire questa soluzione implementata in un'architettura di rete di data center ottimizzata per l'AI. I miglioramenti comprendono la gestione della congestione, il bilanciamento del carico e la minimizzazione della latenza per ottimizzare i tempi di completamento delle operazioni (JCT). Infine, la gestione semplificata e l'automazione garantiscono affidabilità e prestazioni continue.

Progettazione del fabric

Per il networking di data center AI è possibile utilizzare diversi fabric; tuttavia, per ottimizzare il framework di addestramento, si consiglia un fabric Clos non bloccante any-to-any. Questi fabric sono costruiti utilizzando una velocità di rete costante di 400 Gbps (che può arrivare a 800 Gbps) dalla NIC al livello leaf fino a quello spine. A seconda delle dimensioni del modello e della scalabilità della GPU, è possibile utilizzare un fabric non bloccante a due livelli e tre stadi o a tre livelli e cinque stadi.

Controllo del flusso e prevenzione della congestione

Oltre alla capacità del fabric, altre considerazioni progettuali aumentano la sua generale affidabilità ed efficienza. Devono essere prese in esame le interconnessioni del fabric di dimensioni adeguate con il numero ottimale di link e la capacità di rilevare e correggere gli squilibri del flusso per evitare la congestione e la perdita di pacchetti. La notifica esplicita della congestione (ECN) insieme con la notifica di congestione quantizzata del data center (DCQCN) e il controllo del flusso basato sulla priorità risolvono gli squilibri del flusso per garantire una trasmissione lossless.

Per ridurre la congestione, lo switch implementa il bilanciamento del carico dinamico e adattivo. Il bilanciamento dinamico del carico ridistribuisce i flussi localmente nello switch per distribuirli in modo uniforme. Il bilanciamento adattivo del carico monitora l'inoltro dei flussi e le tabelle dei next hop per individuare gli squilibri e allontanare il traffico dai percorsi congestionati.

Quando non è possibile evitare la congestione, l'ECN trasmette una notifica tempestiva alle applicazioni. Nel corso di questi periodi, i leaf e gli spine aggiornano i pacchetti con capacità ECN per notificare ai mittenti la congestione, il che induce questi ultimi a rallentare la trasmissione per evitare lo scarto di pacchetti in transito. Se gli endpoint non reagiscono in tempo, il controllo del flusso basato sulla priorità (PFC) consente ai ricevitori Ethernet di condividere con i mittenti il feedback sulla disponibilità del buffer. Infine, durante i periodi di congestione, i leaf e gli spine possono interrompere o limitare il traffico su specifici link per ridurre la congestione ed evitare lo scarto dei pacchetti, consentendo trasmissioni lossless per specifiche classi di traffico.

Scalabilità e prestazioni

Ethernet si è affermata come la soluzione basata su uno standard aperto ideale per gestire le impegnative applicazioni di calcolo ad alte prestazioni e AI. Nel corso del tempo si è evoluta, compresa l'attuale progressione verso gli 800 GbE e il bridging dei data center (DCB), ed è diventata più veloce, affidabile e scalabile, risultando così l'opzione preferita per gestire l'elevato throughput dei dati e i requisiti di bassa latenza necessari per le applicazioni AI mission critical.

Automazione

L'automazione è il tassello finale per un networking di data center AI efficace, anche se non tutte le automazioni sono uguali. Per una soluzione pienamente valida, il software di automazione deve garantire operazioni che mettano al primo posto l'esperienza. Viene utilizzato costantemente nella progettazione, nel deployment e nella gestione dei data center AI. Automatizza e convalida il ciclo di vita della rete di data center AI dal Giorno 0 al Giorno 2+. Questo si traduce in progetti e deployment di data center AI ripetibili e continuamente convalidati, che non solo eliminano l'errore umano, ma sfruttano anche la telemetria e i dati di flusso per ottimizzare le prestazioni, facilitare la risoluzione proattiva dei problemi ed evitare le interruzioni.   

 

La soluzione di networking di data center AI di Juniper si basa su una decennale esperienza di rete e innovazioni AIOps

Il networking di data center con AI di Juniper si basa su una decennale esperienza di rete e innovazioni AIOps per offrire soluzioni complete di networking AI basate su Ethernet, aperte, veloci e semplici da gestire. Questi fabric ad alta capacità, scalabili e non bloccanti garantiscono le migliori prestazioni AI, i tempi di completamento delle operazioni più rapidi e l'utilizzo più efficiente delle GPU. La soluzione di networking di data center AI di Juniper si fonda sui tre seguenti principali pilastri architettonici.

  • Prestazioni altamente scalabili: per ottimizzare i tempi di completamento delle operazioni e quindi l'efficienza delle GPU.
  • Apertura agli standard del settore: per estendere le tecnologie dei data center esistenti con ecosistemi propri del settore che promuovono l'innovazione e riducono i costi a lungo termine.
  • Operazioni Experience First: per automatizzare e semplificare la progettazione, il deployment e le operazioni dei data center AI per i fabric di back-end, front-end e storage.

Questi pilastri sono supportati da:

  • Un progetto di rete di data center AI lossless ad alta capacità che si avvale di un fabric Clos non bloccante any-to-any, la topologia più versatile per ottimizzare i framework di addestramento dell'AI.
  • Switch e router ad alte prestazioni, inclusi i router della Serie PTX di Juniper, basati sul Juniper Express Silicon per lo spine/super spine, e gli switch serie QFX, basati sugli ASIC Tomahawk di Broadcom come switch leaf che forniscono connettività ai server AI.
  • Efficienza del fabric con il controllo del flusso e la prevenzione delle collisioni.
  • Scalabilità Ethernet aperta e basata su standard e prestazioni a 800 GbE.
  • Ampia automazione grazie al software di rete basato sugli intenti Juniper Apstra® per automatizzare e convalidare il ciclo di vita della rete di data center AI dal Giorno 0 al Giorno 2+.

 

Domande frequenti sul networking di data center AI

Quali problemi risolve il networking di data center AI?

Il networking di data center AI soddisfa i requisiti in termini di prestazioni dell'AI generativa e dei grandi modelli AI di deep learning in generale. L'addestramento dell'AI, in particolare, richiede ampie risorse di calcolo e di dati per supportare i processi iterativi durante i quali il modello AI impara incessantemente dai dati raccolti per perfezionare i suoi parametri. Le unità di elaborazione grafica (GPU) sono adatte per i carichi di lavoro di apprendimento e inferenza dell'AI, ma devono operare in cluster per essere efficienti. La scalabilità dei cluster migliora l'efficienza del modello AI, ma aumenta anche i costi; quindi, è fondamentale utilizzare un networking di data center AI che non ostacoli l'efficienza dei cluster stessi.

Per addestrare modelli di grandi dimensioni è necessario connettere molti, se non persino decine di migliaia di server GPU (con costi superiori ai 400.000 dollari per server nel 2023). Di conseguenza, la massimizzazione dei tempi di completamento delle operazioni e la riduzione al minimo o l'eliminazione della latenza di coda (una condizione in cui i carichi di lavoro dell'AI anomali rallentano il completamento del suo intero lavoro) sono fondamentali per ottimizzare il ritorno sull'investimento delle GPU. In questo caso d'uso, la rete di data center AI deve essere affidabile al 100% e non causare un peggioramento dell'efficienza nel cluster.   

Quali sono i vantaggi di Ethernet rispetto a InfiniBand per il networking di data center AI?

Nelle prime reti di calcolo ad alte prestazioni (HPC) e di addestramento AI, InfiniBand, una tecnologia di networking proprietaria ad alta velocità e bassa latenza, aveva inizialmente acquisito popolarità per la sua comunicazione rapida ed efficiente tra server e sistemi di archiviazione. Oggi l'alternativa aperta Ethernet sta conquistando una posizione significativa nel moderno mercato del networking di data center AI e si prevede che diventerà la tecnologia dominante.

Le tecnologie proprietarie come InfiniBand possono favorire progressi e innovazioni, ma sono costose e offrono servizi a pagamento laddove i mercati competitivi della domanda e dell'offerta non riescono a regolamentare i costi. Inoltre, il pool di esperti professionisti della rete in grado di creare e amministrare una rete Ethernet rispetto a una rete InfiniBand proprietaria è enorme e per gestire tali reti è presente un'ampia gamma di strumenti rispetto alla tecnologia InfiniBand, resa disponibile principalmente tramite Nvidia.

Con IP, Ethernet è la tecnologia di networking più diffusa al mondo. Ethernet si è evoluta ed è diventata più veloce, affidabile e scalabile, risultando così la soluzione preferita per gestire l'elevato throughput dei dati e i requisiti di bassa latenza delle applicazioni AI. La progressione verso gli 800 GbE e i miglioramenti Ethernet del bridging dei data center (DCB) consentono una trasmissione dei dati lossless, ad alta capacità e bassa latenza, rendendo i fabric Ethernet l'opzione ideale per il traffico AI ad alta priorità e mission critical.

Quali soluzioni/produzioni/tecnologie di networking di data center AI offre Juniper?

La soluzione di networking di data center con AI di Juniper consente un progetto di rete di data center AI lossless e ad alta capacità, che utilizza un fabric Clos non bloccante any-to-any, la topologia più versatile per ottimizzare i framework di addestramento AI. Questa soluzione si avvale di switch e router Ethernet ad alte prestazioni e basati su standard aperti con interfacce fino a 800 GbE. Inoltre, usa il software per il networking basato sugli intenti Juniper Apstra al fine di automatizzare e convalidare il ciclo di vita della rete di data center AI dal Giorno 0 al Giorno 2+.