Qu'est-ce qu'un réseau de datacenter dédié à l'IA ?

Qu'est-ce qu'un réseau de datacenter dédié à l'IA ?

Un réseau de datacenter dédié à l'IA est une fabric permettant de traiter l'intelligence artificielle (IA) dans un réseau de datacenter. Elle répond aux besoins conséquents d'évolutivité, de performances et de faible latence que requièrent les charges de travail d'IA et de machine learning (ML), particulièrement lors de la phase d'entraînement de l'IA.

Les premiers réseaux dédiés au calcul haute performance (HPC) et à l'entraînement de l'IA s'appuyaient fréquemment sur InfiniBand, une technologie propriétaire de réseau haute vitesse à faible latence, en raison de la rapidité et de l'efficacité de ses communications entre les serveurs et les systèmes de stockage. Aujourd'hui, l'alternative ouverte Ethernet gagne rapidement en popularité dans les datacenters dédiés à l'IA et devrait même devenir la technologie dominante.

Entre autres facteurs, ce succès s'explique principalement par les avantages opérationnels et économiques d'Ethernet. Par rapport à la technologie InfiniBand, dont les outils proviennent principalement de Nvidia, il est bien plus facile de trouver des ingénieurs réseau capables de créer et d'exploiter des réseaux Ethernet, pour lesquels une large gamme d'outils de gestion est disponible.

 

À quels besoins répondent les réseaux de datacenters dédiés à l'IA ?

L'IA générative se révèle être une technologie transformatrice dans le monde entier. L'IA générative et, de façon plus générale, les grands modèles d'IA de deep learning, s'accompagnent de nouvelles exigences concernant les réseaux de datacenters. Le développement d'un modèle d'IA comprend trois phases :

  • Phase 1 : Préparation des données : collecter et trier les ensembles de données qui seront intégrés au modèle d'IA.
  • Phase 2 : Entraînement de l'IA : apprendre à un modèle d'IA à effectuer une tâche spécifique en l'exposant à de grandes quantités de données. Au cours de cette phase, le modèle d'IA identifie les motifs et les relations présentes dans les données d'entraînement pour développer des synapses virtuelles qui imitent l'intelligence.
  • Phase 3 : Inférence de l'IA : opérer dans un environnement réel pour faire des prévisions ou prendre des décisions en fonction de nouvelles données inconnues.

Les réseaux de datacenter et les réseaux cloud existants sont généralement aptes à traiter la phase 3. Cependant, la phase 2 (entraînement de l'IA) nécessite une quantité massive de données et de ressources informatiques, car le processus itératif à partir duquel apprennent les modèles d'IA repose sur une collecte continue pour affiner ses paramètres. Bien que les unités de traitement graphique (GPU) soient particulièrement adaptées pour les charges de travail d'entraînement et d'inférence de l'IA, elles doivent fonctionner en clusters pour être efficaces. Plus le cluster est grand, plus le modèle d'IA est efficace... et plus les coûts sont élevés. ll est donc essentiel que le réseau du datacenter dédié à l'IA n'entrave pas l'efficacité des clusters.

Un grand nombre de serveurs GPU (parfois des dizaines de milliers, chacun pouvant coûter plus de 400 000 dollars en 2023) doivent être connectés pour entraîner de grands modèles. C'est pourquoi il est essentiel d'optimiser les délais de traitement des tâches et d'éliminer la latence de queue (une situation dans laquelle des charges de travail IA anormales ralentissent le traitement de l'ensemble de la tâche d'IA) pour rentabiliser au mieux l'investissement en GPU. Dans ce cas d'usage, le réseau de datacenter dédié à l'IA doit être fiable à 100 % et ne pas détériorer l'efficacité du cluster.   

 

Comment fonctionne un réseau de datacenter dédié à l'IA ?

Les serveurs GPU représentant un énorme budget, il est impératif de maximiser leur utilisation avec un réseau de datacenter haute performance dédié à l'IA, dont l'architecture optimisée s'appuie sur une technologie ouverte et éprouvée : Ethernet. Gestion des congestions, équilibrage de charge, latence réduite pour optimiser le délai de traitement des jobs (JCT)... un ensemble d'améliorations garantit une grande fiabilité et des performances constantes, soutenues par une gestion et une automatisation simplifiées.

Conception de la structure

La fabric d'un réseau de datacenter dédié à l'IA peut avoir plusieurs conceptions, bien qu'une fabric Clos any-to-any non bloquante soit recommandée pour optimiser le famework d'entraînement. Ces fabrics reposent sur des connexions 400 Gbit/s (bientôt 800 Gbit/s) constantes, de la carte réseau jusqu'à l'équipement Leaf en passant par le cœur de réseau. Une fabric non bloquante à deux couches et trois étages, ou trois couches et cinq étages, peut être utilisée en fonction de la taille du modèle et du nombre de GPU.

Contrôle des flux et évitement des congestions

Divers facteurs de conception augmentent la fiabilité et l'efficacité de la fabric dans son entièreté, comme des interconnexions de taille appropriée, un nombre optimal de liaisons, et des capacités de détection et de correction des déséquilibres de flux pour éviter les encombrements et la perte de paquets. Tout déséquilibre de flux est évité grâce aux mécanismes ECN (Explicit Congestion Notification) et DCQCN (Data Center Quantized Congestion Notification) et au contrôle des flux PFC (Priority-based Flow Control), garantissant une transmission sans perte.

Pour réduire les encombrements, chaque commutateur applique un équilibrage de charge dynamique et adaptatif qui redistribue localement les flux pour les distribuer de manière uniforme. Pour cela, le transfert des flux et les tables next hop sont surveillées afin d'identifier les déséquilibres et d'éviter les chemins encombrés.

Lorsque les encombrements ne sont pas évitables, l'ECN en informe rapidement les applications. Au cours de ces périodes, les équipements Leaf et Spine mettent à jour les paquets compatibles ECN afin d'avertir les expéditeurs de l'encombrement, de manière à ralentir la transmission et éviter les pertes de paquets en transit. Si les points de terminaison ne réagissent pas à temps, le contrôle des flux PFC permet aux récepteurs Ethernet d'informer les expéditeurs de la disponibilité du tampon. Enfin, en cas d'encombrement, les équipements Leaf et Spine peuvent suspendre ou ralentir le trafic sur des liaisons spécifiques de manière à éviter les ralentissements et les pertes de paquets. Résultat : des classes de trafic avec transmission sans perte.

Évolutivité et performances

Ethernet est devenue la solution ouverte privilégiée pour répondre aux exigences du calcul haute performance et des applications IA. Le protocole a évolué au fil du temps (y compris avec ses dernières avancées 800 GbE et les normes Data Center Bridging (DCB)) pour gagner en vitesse, en fiabilité et en évolutivité, ce qui en fait l'option de choix pour les applications IA critiques à haut débit et à faible latence.

Automatisation

Dernier maillon d'une solution efficace de réseau de datacenter dédié à l'IA : l'automatisation. Notez que toutes les automatisations ne se valent pas, une solution optimale étant axée sur l'expérience, y compris au niveau opérationnel. Conception, déploiement et gestion : Elle automatise et valide le cycle de vie du réseau de datacenter d'IA du jour 0 jusqu'au jour 2 et plus. Avec des conceptions et des déploiements reproduisibles et validés en permanence pour votre datacenter dédié à l'IA, vous supprimez les erreurs humaines, optimisez les performances, assurez des capacités proactives de dépannage et évitez les pannes en exploitant la télémétrie et des données de flux.   

 

La solution Juniper s'appuie sur des décennies d'innovations AIOps et d'expérience des réseaux

Notre solution de réseau de datacenter dédié à l'IA, résultat de décennies d'expérience des réseaux et d'innovations AIOps, s'appuie sur Ethernet pour créer des expériences d'IA à la fois ouvertes, rapides et simples à gérer. Ces fabrics haute capacité, évolutives et non bloquantes offrent des performances taillées pour l'IA, des délais de traitement des jobs inégalés et une utilisation optimale des GPU. La solution de Juniper s'appuie sur trois piliers architecturaux fondamentaux :

  • Des performances à très grande échelle pour optimiser le délai de traitement des jobs et donc l'efficacité des GPU
  • Des normes ouvertes qui complètent les technologies de datacenter existantes avec des écosystèmes de référence qui favorisent l'innovation et réduisent les coûts à long terme
  • Des opérations axées sur l'expérience qui automatisent et simplifient la conception, le déploiement et les opérations des datacenters dédiés à l'IA, avec des fabrics couvrant le back-end, le front-end et le stockage

Ces piliers sont soutenus par :

  • Un réseau sans perte haute capacité grâce à une fabric Clos any-to-any non bloquante, la topologie la plus polyvalente pour optimiser les frameworks d'entraînement d'IA
  • Des commutateurs et des routeurs hautes performances, comme les routeurs Juniper PTX Series basés sur les circuits intégrés Juniper Express pour le cœur/super cœur de réseau, et les commutateurs QFX Series basés sur les ASICS Tomahawk de Broadcom comme commutateurs Leaf pour la connectivité aux serveurs d'IA
  • Des fabrics ultra efficaces avec contrôle de flux et prévention des collisions
  • Des normes Ethernet ouvertes, performantes à très grande échelle avec le 800 GbE
  • Une automatisation complète à l'aide du logiciel de mise en réseau basée sur l'intention Juniper Apstra® pour automatiser et valider tout le cycle de vie du réseau du datacenter dédié à l'IA, du jour 0 au jour 2 et au-delà

 

Questions fréquentes sur les réseaux de datacenters dédiés l'IA

À quels problèmes répondent les réseaux de datacenter dédiés à l'IA ?

Ces réseaux répondent aux exigences de performance de l'IA générative et des grands modèles IA de deep learning en général. L'entraînement de l'IA, en particulier, exploite des quantités massives de données et de ressources de calcul pour soutenir son processus itératif : apprendre et ajuster des paramètres à partir de données collectées en continu. Bien que les unités de traitement graphique (GPU) soient particulièrement adaptées pour les charges de travail d'entraînement et d'inférence de l'IA, elles doivent fonctionner en clusters pour être efficaces. Plus le cluster est grand, plus le modèle d'IA est efficace... et plus les coûts sont élevés. Le réseau du datacenter dédié l'IA ne doit donc pas entraver l'efficacité des clusters.

Un grand nombre de serveurs GPU (parfois des dizaines de milliers, chacun pouvant coûter plus de 400 000 dollars en 2023) doivent être connectés pour entraîner de grands modèles. C'est pourquoi il est essentiel de maximiser les délais de traitement des jobs et d'éliminer la latence de queue (une situation dans laquelle des charges de travail IA aberrantes ralentissent le traitement du job complet) pour rentabiliser au mieux l'investissement GPU. Dans ce cas d'usage, le réseau de datacenter dédié à l'IA doit être fiable à 100 % et ne pas détériorer l'efficacité du cluster.   

Quels sont les avantages d'Ethernet par rapport à InfiniBand ?

Les premiers réseaux dédiés au calcul haute performance (HPC) et à l'entraînement de l'IA s'appuyaient fréquemment sur InfiniBand, une technologie propriétaire de réseau haute vitesse à faible latence, en raison de la rapidité et de l'efficacité de ses communications entre les serveurs et les systèmes de stockage. Aujourd'hui, l'alternative ouverte Ethernet gagne rapidement en popularité dans les datacenters dédiés à l'IA et devrait même devenir la technologie dominante.

Bien qu'innovantes, les technologies propriétaires comme InfiniBand sont très coûteuses sur des marchés où l'offre et la demande ne peuvent pas réguler les coûts. En outre, par rapport à la technologie InfiniBand, dont les outils proviennent principalement de Nvidia, il est bien plus facile de trouver des ingénieurs réseau capables de créer et d'exploiter des réseaux Ethernet, pour lesquels une large gamme d'outils de gestion est disponible.

Après la technologie IP, Ethernet est le protocole réseau le plus largement adopté au monde. Ethernet a évolué pour gagner en rapidité, en fiabilité et en évolutivité, ce qui en fait la solution privilégiée pour répondre aux exigences de haut débit et de faible latence des applications d'IA. Avec les dernières avancées 800 GbE et les améliorations DCB (Data Center Bridging) pour Ethernet, les fabrics IP assurent une transmission des données à haute capacité, à faible latence et sans perte, ce qui les rend idéales pour le trafic d'IA prioritaire et critique.

Quelles solutions/produits/technologies de mise en réseau Juniper propose-t-il pour les datacenters dédiés à l'IA ?

La solution de réseau de datacenter dédié à l'IA de Juniper repose sur une conception de réseau de datacenters IA à haute capacité et sans perte qui utilisent une fabric Clos non bloquante any-to-any (la topologie la plus polyvalente pour optimiser les cadre d'apprentissage de l'IA). La solution utilise des commutateurs et des routeurs Ethernet hautes performances basés sur les normes, dont les interfaces pouvent atteindre 800 GbE. De plus, elle utilise le logiciel de mise en réseau basée sur l'intention Juniper Apstra pour automatiser et valider tout le cycle de vie du réseau du datacenter IA, du Jour 0 au jour 2 et au-delà.