Intelligence artificielle et réseaux : la révolution sans retour

15 août 2023

Rami Rahim, PDG, Juniper Networks

Je me souviens précisément du moment où j’ai réalisé que l’IA allait tout changer pour nous.

Il y a cinq ans, lors d'une réunion d'affaires avec Mist Systems (un de nos partenaires technologiques à l’époque), ses fondateurs nous ont présenté une idée révolutionnaire : une plateforme réseau pilotée par l’IA, capable de résoudre les problèmes du réseau en toute autonomie, avant même que les utilisateurs ne les ressentent.

Tout ceci semblait formidable, sur le papier du moins. Mais étant donné le cortège de fausses promesses qui accompagnait l'IA depuis des décennies, je demeurais sceptique quant à son potentiel. Jusqu’à ce que je voie l’IA de Mist en action. Pour ne rien vous cacher, notre équipe informatique interne avait déjà pu constater par elle-même l'impact de l'IA grâce à un déploiement pilote de Mist sur notre propre réseau. La plateforme pouvait effectivement diagnostiquer et résoudre automatiquement les problèmes en temps réel, avec une précision et une vitesse inégalées.

C’est à ce moment que j’ai réalisé à quel point l’IA allait changer la destinée du monde en général, et de Juniper en particulier.

Vous n’êtes probablement pas sans savoir qu'entre-temps, notre plateforme AIOps est devenue une composante centrale de la stratégie de Juniper. Alors que les autres acteurs du marché s'en tiennent à de belles paroles, notre IA leader en est déjà à sa 7e génération, soit autant d'innovations qui ont révolutionné le réseau et ouvert la voie à des expériences utilisateurs d'exception. Jugez plutôt : baisse globale de 90 % des tickets d’incident chez un grand éditeur mondial de logiciels, chute de 85 % des déplacements en magasin pour un acteur international de la grande distribution, déploiement du réseau de sites distants le plus rapide de l’histoire chez un opérateur mobile américain...

Pour des milliers d’entreprises, notre plateforme Mist pilotée par l’IA a radicalement changé la donne.

Et nous n’en sommes qu'au tout début.

Après avoir vu les performances de Mist de nos propres yeux, nous nous sommes rendus à l’évidence : les domaines d'application de l'IA allaient connaître un essor fulgurant, entraînant dans leur sillage les modèles IA et les datacenters.

C’est là que les choses prennent une tournure réellement intéressante pour Juniper.

Datacenter piloté par l’IA : la révolution en marche

Il y a quelque temps déjà, les fabricants de semi-conducteurs ont pris conscience de l'adéquation de leurs processeurs graphiques (GPU) pour jeux vidéo avec les modèles d'apprentissage machine et d’inférence de l’IA.

Seulement voilà, la capacité de traitement IA d’un seul processeur GPU reste limitée. Aujourd’hui, les clusters d’IA/ML comptent des centaines, voire des milliers de GPU pour fournir la puissance massive de calcul parallèle nécessaire à l’entraînement des modèles IA actuels.

Naturellement, c’est le réseau qui relie tous ces GPU entre eux et leur permet d’opérer comme un seul et même système de traitement IA ultra performant.

Certes, plusieurs révolutions technologiques (cloud, services mobiles, streaming...) ont successivement repoussé les limites de performance des réseaux. Mais ici, le trafic généré par les charges distribuées de machine learning transitant dans les datacenters est sans commune mesure avec ce que l'on a connu jusqu'à présent. Des jeux de données gigantesques doivent en effet circuler pour résoudre les milliards, voire les milliers de milliards de paramètres des modèles IA, ce qui sollicite le réseau comme jamais auparavant.

Pour vous donner un ordre de d'idée, chez nos clients qui exigent un maximum de performance, un cluster de GPU type est traversé chaque seconde par un trafic réseau aussi dense que l’ensemble du trafic Internet aux États-Unis. Et pour cerner la dimension économique d’un datacenter piloté par l’IA, sachez qu’un seul serveur équipé de GPU coûte jusqu’à 400 000 $US. Concevoir un datacenter piloté par l’IA implique donc de maximiser le taux d’utilisation des GPU.

Pour répartir la charge entre les GPU et les synchroniser afin d'entraîner le modèle IA, un nouveau type de réseau doit pouvoir raccourcir la durée d’exécution des tâches (ou JCT, « Job Completion Time ») et réduire le temps que le système doit attendre avant que le dernier GPU termine ses calculs (« tail latency » ou latence de fin).

En ce sens, les réseaux de datacenters optimisés pour l’IA/ML doivent donc être dotés de fonctionnalités de gestion des congestions, d’équilibrage de charge, de latence et, par-dessus tout, de minimisation du JCT. Or, ces attributs système constituent le cœur de compétences de Juniper depuis des années. De plus, l’augmentation incessante de la taille des modèles et des jeux de données impose aux professionnels du ML d’ajouter régulièrement des GPU à leurs clusters. La fabric réseau doit donc être pensée dans une optique d'évolutivité transparente, sans dégradation des performances ni introduction de points de saturation.

Ingénieur de formation, j’ai commencé ma carrière chez Juniper en développant des composants ASIC extrêmement spécialisés pour soutenir la croissance d’Internet dans les années 1990. J’ai donc été le témoin privilégié des cycles d’innovation successifs qui ont propulsé notre marché vers de nouveaux sommets en matière d’échelle, de performance et de débit.

Les réseaux pilotés par l’IA représentent un tournant générationnel qui va nous confronter à des défis techniques complexes pour les années à venir. Je suis convaincu que Juniper a toutes les cartes en main pour écrire cette nouvelle page de l'histoire des réseaux. Pour nous, tout l'enjeu consistera à rester fidèles à ce que j’appelle les trois Commandements des réseaux de datacenters pilotés par l’IA :

1. Haute performance
Comme nous l'évoquions plus haut, le taux d’utilisation des GPU est le facteur économique n°1 de l’entraînement des modèles IA. Pour le maximiser, il vous faut donc un réseau qui à la fois optimise le JCT et minimise la latence en fin de calcul (tail latency). L'accélération de l’entraînement des modèles se traduit non seulement par des résultats plus rapides, mais aussi par une optimisation des ressources de calcul, synonyme de baisse des coûts dans le datacenter.

Depuis toujours, Juniper prône l’indépendance vis-à-vis des composants matériels. Cette philosophie offre à nos clients une complète liberté de choix pour leur architecture spine-leaf et pour l'interconnexion de datacenters. Ils peuvent ainsi se concentrer sur certains marqueurs clés comme l'efficacité énergétique ou l'évolutivité du réseau. Équipée de circuits intégrés conçus en interne et par d'autres constructeurs informatiques, notre vaste gamme de systèmes sous-tend les plus grands réseaux mondiaux, tout en offrant aux clients toute la flexibilité nécessaire pour répondre à leurs besoins et contraintes aux différentes étapes de leur parcours IA.

2. Infrastructure ouverte
La performance est un facteur essentiel dans lequel tout le monde investit. C’est ensuite que la dimension économique entre en jeu, apportant avec elle des critères de compétitivité. Et qui dit compétitivité dit ouverture technologique. Cette logique s'est maintes fois répétée dans notre industrie. Et si j'étais joueur, je parierais sur la victoire de l’Ethernet. Je le dis et je le répète : une plateforme ouverte génère un foisonnement d’innovations. Les technologies propriétaires ont certes un rôle à jouer, mais il est rare qu’à lui seul, un acteur de la tech domine le reste du marché sur le terrain de l’innovation. C'est même du jamais-vu dans les environnements où les enjeux sont si cruciaux. Juniper soutient sans réserve la norme Ethernet et son riche écosystème de fournisseurs, notamment le nouvel Ultra Ethernet Consortium, qui favorise la baisse des coûts, stimule l’innovation et finit par s’imposer face à des approches fermées comme InfiniBand.

Dans le prolongement de ce vaste écosystème Ethernet, Juniper continue d’innover dans les technologies réseau qui accélèrent le transfert de données, assurent une transmission sans perte et gèrent plus efficacement les saturations du réseau. Soit autant de facteurs déterminants dans la révolution de l’IA.

3. Opérations Experience-First
La complexité croissante des réseaux de datacenters impose d’ajouter de nouveaux protocoles à la fabric réseau pour satisfaire les exigences de performance des workloads IA. Dans ce contexte, l’automatisation basée sur l’intention permet de faire abstraction de cette complexité sous-jacente aux yeux des techniciens réseau opérationnels. Juniper aborde le datacenter sous un angle multifournisseurs et « operations-first ». Nous ajoutons des extensions pour les clusters IA à Junos et à Apstra, notre solution d’automatisation et de gestion des fabrics de datacenter. J'en profite pour préciser qu’Apstra est l’unique plateforme multifournisseurs de ce type sur le marché. Sinon, à quoi sert l’ouverture si on est confiné à un seul fournisseur après le premier achat ?

Qu'on se le dise : l'IA est là pour durer et tout retour en arrière est inenvisageable.

Juniper a déjà démontré les atouts de l’IA pour simplifier la gestion des réseaux filaires, sans fil et WAN, avec à la clé une amélioration incomparable de l’expérience utilisateur et une simplification radicale du travail des opérateurs réseau. Et nous sommes loin d'en avoir terminé, car les contraintes qu’exercent le machine learning et les grands modèles linguistiques (LLM) nous incitent à innover sans cesse pour affronter les défis qui se profilent.

Il ne faut pas se leurrer : la tâche sera difficile. Mais c'est ce genre de défi planétaire qui a toujours animé les équipes de Juniper. « Power connections and empower change » : par ce mot d'ordre, nous nous sommes fixés pour mission de fluidifier les connexions et de promouvoir le changement, quelle qu’en soit la forme. Pour ce faire, nous capitalisons sur notre long héritage de performance et sur un engagement sans faille envers des opérations Experience-First.

J'en ai l'intime conviction : la stratégie suivie par Juniper pour les réseaux de datacenters ouvrira une nouvelle ère dans laquelle l’IA pourra exprimer tout son potentiel.