Solutions & Technologies
Redes del centro de datos de IA
Los avances recientes en inteligencia artificial (IA) generativa han capturado la imaginación de cientos de millones de personas en todo el mundo y catapultaron la IA y el aprendizaje automático (ML) al centro de atención corporativo. Los centros de datos son los motores detrás de la IA y las redes de centros de datos juegan un papel crítico para interconectar y maximizar la utilización de servidores de GPU costosos que realizan el procesamiento intensivo en un centro de datos de capacitación de IA.
Las redes de centros de datos optimizadas para cargas de trabajo de IA/ML requieren capacidades especiales en torno a la administración de congestión, el equilibrio de carga y más para optimizar el rendimiento y la economía del modelado de IA. La solución de Juniper cumple con estos desafíos con estructuras de redes no bloqueantes y escalables de alta capacidad que ofrecen el mayor rendimiento de IA.
Improving the economics of AI
The economics of AI training relies on advanced networking that is fast, simple, and intelligent.
Cómo ayuda Juniper
La innovación de Juniper impulsa constantemente nuevos niveles de escala, rendimiento y experiencia del usuario. Nuestra solución de redes de IA ayuda a los clientes a construir estructuras de red de alta capacidad, escalables y fáciles de operar que ofrecen el tiempo de finalización del trabajo (JCT) más rápido, mientras que maximizan la utilización de GPU y mejoran la economía.
Estructura de IA de alto rendimiento
Maximizar la utilización de la GPU y minimizar el tiempo de inactividad son factores económicos clave en los modelos de IA de capacitación. La solución de redes de IA de Juniper optimiza JCT y minimiza la latencia de cola utilizando una mezcla de factor de forma fijo y conmutadores de alto radix, combinados con nuestro amplio portafolio de chips. Esta solución ofrece flexibilidad de casos de uso, optimizada para factores como la eficiencia energética y la escala.
Solución abierta basada en estándares
Las soluciones patentadas que se bloquean en las empresas pueden sofocar la innovación de IA. Juniper admite firmemente el estándar Ethernet en redes de centros de datos con un ecosistema de proveedores robusto que estimula la innovación y reduce los costos. Además, estamos comprometidos con las operaciones de centros de datos de múltiples proveedores con nuestro software de administración y automatización de estructuras basadas en la intención de Juniper Apstra.
Operaciones que priorizan la experiencia
Las redes de centros de datos son cada vez más complejas y requieren nuevos protocolos para satisfacer las demandas de rendimiento de carga de trabajo de IA. La automatización con nuestro sistema operativo de Junos y el software de administración de centros de datos de Juniper Apstra protege a los operadores de red de esa complejidad y agiliza las operaciones del centro de datos con un enfoque de múltiples proveedores y que prioriza la experiencia.
Soluciones relacionadas
Redes del centro de datos
Simplifique las operaciones y asegure la confiabilidad con el centro de datos automatizado y moderno. Juniper le ayuda a automatizar y validar continuamente todo el ciclo de vida de la red para facilitar el diseño, el despliegue y las operaciones.
Interconexiones del centro de datos
Las soluciones DCI de Juniper permiten generar una interconectividad sin interrupciones que supera las limitaciones de escalabilidad tradicionales, el bloqueo de proveedores y los desafíos de interoperabilidad.
Arquitectura de enrutamiento óptico convergente (CORA)
La CORA es una solución automatizada, sostenible y extensible para la convergencia óptica a través de IP. Proporciona los componentes esenciales que los operadores necesitan para implementar estrategias transformadoras de IP a través de MDCLO para las redes 400G y más allá en redes de núcleo, borde y área metropolitana.
Redes de almacenamiento de IP
Simplifique su almacenamiento de datos e impulse el rendimiento del centro de datos con redes de almacenamiento de todas las IP. Utilice las últimas tecnologías, como NVMe/RoCEv2 con conmutación de 100G o 400G, o NVMe/TCP, para crear un almacenamiento de alto rendimiento o convergir su almacenamiento y sus datos en una sola red.
ÉXITO DEL CLIENTE
SambaNova hace que el aprendizaje automático de alto rendimiento y vinculado a la CPU sea fácil y escalable.
La IA promete transformar la atención médica, los servicios financieros, la fabricación, la venta minorista y otras industrias, pero muchas organizaciones que buscan mejorar la velocidad y la efectividad de los esfuerzos humanos aún no han alcanzado el potencial completo de la IA.
Para superar la complejidad de desarrollar el aprendizaje automático (ML) complejo y vinculado a la CPU, SambaNova diseñó DataScale. Diseñado a partir de la arquitectura Dataflow reconfigurable (RDA) de SambaNova Systems y construido mediante estándares abiertos e interfaces de usuario, DataScale es una plataforma de sistemas de software y hardware integrada optimizada de algoritmos a chips. La conmutación de Juniper mueve volúmenes masivos de datos para los sistemas y servicios de escala de datos de SambaNova.
Centro de recursos
Informes técnicos
Videos
Preguntas frecuentes de redes del centro de datos de IA
¿Qué tipos de empresas están priorizando el despliegue de soluciones de IA/ML en sus centros de datos hoy?
La demanda de IA está impulsando a los hiperescaladores, los proveedores de nube, las empresas, los gobiernos y las instituciones educativas a incorporar IA en sus sistemas comerciales para automatizar las operaciones, generar contenido y comunicaciones y mejorar el servicio al cliente.
¿Cuál es la diferencia entre las etapas de capacitación e inferencia de IA?
Los modelos de IA se construyen utilizando conjuntos de datos cuidadosamente diseñados durante la etapa de capacitación. La capacitación se realiza en múltiples GPU que abarcan decenas, cientos e incluso miles de GPU en un clúster, todas conectadas a través de una red y que intercambian datos constantemente entre sí. Después de esta etapa de capacitación, el modelo está esencialmente completo. Durante la etapa de inferencia, los usuarios interactúan con el modelo, que puede reconocer imágenes o generar imágenes y texto para proporcionar respuestas a las preguntas de los usuarios. La capacitación es típicamente una operación sin conexión, mientras que la inferencia generalmente es en línea.
¿Cuáles son los componentes de la solución de infraestructura de red de centro de datos de IA y cómo los habilita Juniper?
Los conjuntos de datos masivos de IA están creando la necesidad de una mayor potencia informática, un almacenamiento más rápido y redes de alta capacidad y baja latencia. Juniper ayuda a cumplir estos requisitos de las siguientes maneras:
- Cómputo: los clústeres de computación de IA/ML generan enormes requisitos en la red entre nodos. Reducir el tiempo de finalización del trabajo (JCT) es esencial y la red juega un papel clave en la operación eficiente del grupo. Juniper ofrece una gama de conmutadores no bloqueantes de alto rendimiento con capacidad de búfer profundo y administración de congestión que, cuando se diseñan de manera óptima, eliminan cualquier cuello de botella de red.
- Almacenamiento: en los clústeres de IA/ML y la computación de alto rendimiento, rara vez se puede almacenar un conjunto o modelo completo de datos en los nodos de cálculo, por lo que se requiere una red de almacenamiento de alto rendimiento. Los conmutadores de la serie QFX de Juniper se pueden usar para la conectividad de almacenamiento IP; ofrecen soporte completo para redes de acceso directo de memoria remota (RDMA), incluida la memoria no volátil Express/RDMA sobre Ethernet convergente (NVMe/RoCE) y el sistema de archivos de red (NFS) o RDMA.
- Red: los modelos de capacitación de IA implican cálculos grandes e intensos distribuidos en cientos o miles de procesadores de CPU, GPU y TPU. Estos cálculos exigen redes de alta capacidad, escalables horizontalmente y sin errores. Los conmutadores QFX y los enrutadores de la serie PTX de Juniper admiten estos grandes cálculos dentro y a través de centros de datos con capacidades de transferencia de datos y conmutación e interconexión del centro de datos (DCI) líderes en la industria.
¿Cómo aborda la solución de redes del centro de datos de IA de Juniper los requisitos de administración de congestión, equilibrio de carga y latencia para maximizar el rendimiento de IA?
Los conmutadores de centro de datos no bloqueantes de alto rendimiento de Juniper ofrecen administración de congestión y búfer profundo para eliminar los cuellos de botella de red. Para equilibrar las cargas de tráfico, admitimos el equilibrio de carga dinámico y el enrutamiento adaptativo. Para la administración de congestión, Juniper admite completamente la notificación de congestión cuantificada del centro de datos (DCQCN), el control de flujo de prioridad (PFC) y la notificación de congestión explícita (ECN). Finalmente, para reducir la latencia, Juniper usa las mejores arquitecturas de chip comercial y ASIC personalizadas que maximizan los búferes cuando se necesitan, las colas de salida virtual (VOQ) y las estructuras basadas en células dentro de nuestras arquitecturas de spine.
¿Qué ofrece Juniper para el almacenamiento IP?
Nuestra cartera incluye conmutadores abiertos basados en estándares que ofrecen conectividad de almacenamiento basada en IP mediante NVMe/RoCE o NFS/RDMA (consulte las preguntas frecuentes anteriores). Nuestros diseños de solución de redes de almacenamiento IP pueden escalar desde una configuración pequeña de cuatro nodos a cientos o miles de nodos de almacenamiento.
