PFC basé sur DSCP pour le trafic de couche 3 non balisé
Vous pouvez configurer le PFC basé sur DSCP pour prendre en charge le comportement sans perte du trafic non balisé à travers des connexions de couche 3 vers des sous-réseaux de couche 2 pour des protocoles tels que RoCEv2 (Remote Direct Memory Access (RDMA) over converged Ethernet version 2).
Vue d’ensemble
Avec le PFC basé sur DSCP, des trames de pause sont générées pour avertir l’homologue que la liaison est encombrée en fonction d’une valeur DSCP (Distributed Services Code Point) 6 bits configurée dans l’en-tête IP de couche 3 du trafic entrant, plutôt que d’un point de code IEEE 802.1p 3 bits dans l’en-tête du VLAN de couche 2.
Étant donné que PFC ne peut envoyer que des trames de pause correspondant à des points de code de priorité PFC, la valeur DSCP configurée sur 6 bits doit être mappée à une priorité PFC de 3 bits à utiliser dans les trames de pause lorsque PFC basé sur DSCP est déclenché. La configuration du mappage implique de mapper la valeur de priorité PFC à une classe de transfert sans perte lorsque vous mappez la classe de transfert à une file d’attente, de définir un profil de notification de congestion pour activer PFC sur le trafic avec la valeur DSCP souhaitée et de configurer un classificateur DSCP pour associer la classe de transfert mappée de priorité PFC (ainsi que la priorité de perte) à la valeur DSCP configurée sur laquelle déclencher des trames de pause PFC.
Le PFC de sortie de l’appareil pair et une file d’attente de contrôle de flux correspondante doivent être configurés pour correspondre à la configuration de priorité PFC sur l’appareil.
Utilisez l’explorateur de fonctionnalités pour confirmer la prise en charge de la plate-forme et de la version pour des fonctionnalités spécifiques.
PFC basé sur DSCP pour le trafic de couche 3 non balisé dans les datacenters d’IA-ML
Les applications d’IA et de ML se développent rapidement dans les datacenters. Lorsque les charges de travail d’IA et de ML et les grands ensembles de données sont confrontés à de grands ensembles de données, la taille des données constitue un défi majeur. Le transfert des calculs vers des unités de traitement graphique (GPU) peut accélérer considérablement cette tâche. Cependant, la taille des données et le modèle, en particulier dans les grands modèles de langage (LLM), dépassent souvent la capacité de mémoire d’un seul GPU. Par conséquent, vous avez généralement besoin de plusieurs GPU pour atteindre des délais d’exécution raisonnables, en particulier pour l’entraînement.
Les performances d’un datacenter d’IA dépendent du nombre de GPU utilisés et de l’efficacité du réseau qui les connecte. Les ralentissements du réseau peuvent entraîner une sous-utilisation des GPU et des délais d’exécution des tâches plus longs. Les réseaux Ethernet sont de plus en plus populaires en tant qu’alternative à InfiniBand pour les réseaux de datacenters dédiés à l’IA. L’une des solutions est le réseau RoCEv2 (Remote Direct Memory Access, RDMA) over Converged Ethernet version 2.
RoCEv2 consiste à encapsuler des paquets de protocole RDMA dans des paquets UDP pour le transport sur des réseaux Ethernet. Le protocole RoCEv2 utilise le contrôle de flux basé sur la priorité (PFC) pour établir un réseau sans perte, tandis que la notification de congestion quantifiée pour datacenter (DCQCN) fournit un contrôle de congestion de bout en bout pour RoCEv2. Junos OS Evolved prend en charge DCQCN en combinant la notification de congestion explicite (ECN) et PFC pour permettre un réseau Ethernet IA de bout en bout et sans perte.
Pour prendre en charge le trafic IPv6 sans perte entre les connexions de couche 3 (L3) aux sous-réseaux de couche 2 (L2), vous pouvez configurer PFC pour qu’il fonctionne à l’aide de valeurs DSCP (Differentiated Services Code Point) 6 bits à partir d’en-têtes L3 de trafic VLAN non balisé. Vous pouvez utiliser PFC avec DSCP comme alternative aux valeurs de priorité IEEE 802.1p dans les en-têtes de paquets balisés VLAN L2. Vous avez besoin d’un PFC basé sur DSCP pour prendre en charge RoCEv2.
Avantages-
Utilisez les réseaux Ethernet pour la mise en réseau de datacenter IA-ML.
-
Améliorez l’efficacité du réseau pour les grands ensembles de données.
-
Mettez en place un réseau Ethernet IA-ML de bout en bout et sans perte.
La configuration
Pour configurer le PFC basé sur DSCP :
Mappez une classe de transfert sans perte à une priorité PFC (une valeur de 3 bits représentée sous forme décimale (0-7) à utiliser dans les trames de pause PFC.
Vous devez également affecter une file d’attente de sortie à la classe de transfert avec l’option
queue-num. L’optionno-lossest requise dans ce cas pour prendre en charge le comportement sans perte pour le PFC basé sur DSCP, et l’instructionpfc-priorityspécifie le mappage de la valeur de priorité, comme suit :[edit class-of-service] user@device# set forwarding-classes class class-name queue-num queue-number no-loss user@device# set forwarding-classes class class-name pfc-priority pfc-priority
Définissez un profil de notification de congestion en entrée pour activer PFC sur le trafic spécifié par la valeur DSCP 6 bits souhaitée. Vous pouvez également configurer l’unité de réception maximale (MRU) et la longueur du câble (utilisées pour déterminer l’espace de marge de tampon PFC réservé à la liaison) :
Remarque :Vous ne pouvez pas configurer à la fois le PFC basé sur DSCP et IEEE PFC 802.1p sous le même profil de notification congestion.
[edit class-of-service] user@device# set congestion-notification-profile name input dscp code-point code-point-bits pfc mru mru-value user@device# set congestion-notification-profile name cable-length cable-length-value
Configurez un classificateur DSCP pour la valeur DSCP configurée et la classe de transfert sans perte mappées dans les étapes précédentes :
[edit class-of-service] user@device# set classifiers dscp classifier-name forwarding-class class-name loss-priority level code-points code-point-bits
Attribuez le classificateur et le profil de notification de congestion configurés dans les étapes précédentes à une interface sur laquelle vous activez le PFC basé sur DSCP :
[edit class-of-service] user@device# set interfaces interface-name classifiers dscp classifier-name user@device# set interfaces interface-name congestion-notification-profile profile-name
Vérifiez votre configuration.
Par exemple, avec les exemples de commandes suivants configurant le PFC basé sur DSCP pour l’interface xe-0/0/1, les trames de pause PFC sont générées avec PFC de priorité 3 lorsque le trafic entrant avec la valeur DSCP 110000 devient encombré :
set interfaces xe-0/0/1 unit 0 family inet address 10.1.1.2/24 set class-of-service forwarding-classes class fc1 queue-num 1 no-loss set class-of-service forwarding-classes class fc1 pfc-priority 3 set class-of-service congestion-notification-profile dpfc-cnp input dscp code-point 110000 pfc set class-of-service classifiers dscp dpfc forwarding-class fc1 loss-priority low code-points 110000 set class-of-service interfaces xe-0/0/1 congestion-notification-profile dpfc-cnp set class-of-service interfaces xe-0/0/1 classifiers dscp dpfc
Configuration pour les routeurs de la série PTX10000
Vérifiez la configuration.
Vérifiez le port entrant.
show interfaces interface-name extensive | match Priority
show interfaces queue interface-name
Affichez le profil de notification de congestion d’entrée DSCP.
show class-of-service congestion-notification-profile cnp name
Affiche les classes de transfert mappées à chaque priorité PFC.
show class-of-service forwarding-classes