O que é a rede de data center com IA?

A rede de data center com IA refere-se à malha de rede do data center que possibilita o uso de inteligência artificial (IA). Ela suporta os rigorosos requisitos de escalabilidade de rede, desempenho e baixa latência de cargas de trabalho de IA e aprendizado de máquina (ML), que são especialmente exigentes na fase de treinamento de IA.

Nas primeiras redes de treinamento de IA e computação de alto desempenho (HPC), a InfiniBand, uma tecnologia de rede proprietária de alta velocidade e baixa latência, inicialmente ganhou popularidade por sua comunicação rápida e eficiente entre servidores e sistemas de armazenamento. Hoje, a alternativa aberta é a Ethernet, que está ganhando tração significativa no mercado de redes de data center com IA e deve se tornar a tecnologia dominante.

Há várias razões para a adoção crescente da Ethernet, mas as operações e o preço se destacam. O pool de talentos de profissionais de rede que podem criar e operar uma rede Ethernet em comparação com uma rede InfiniBand proprietária é enorme, e há uma ampla gama de ferramentas disponíveis para gerenciar essas redes em comparação com a tecnologia InfiniBand, que é fornecida predominantemente pela Nvidia.

Quais requisitos orientados por IA são atendidos pela rede de data center com IA?

A IA generativa está provando ser uma tecnologia transformadora em todo o mundo. A IA generativa e os grandes modelos de IA de aprendizado profundo em geral trazem novos requisitos de rede de data center com IA. Há três fases para o desenvolvimento de um modelo de IA:

Fase 1: Preparação de dados — Coletar e selecionar conjuntos de dados para serem inseridos no modelo de IA.
Fase 2: Treinamento de IA — Ensinar um modelo de IA a realizar uma tarefa específica expondo-o a grandes quantidades de dados. Durante essa fase, o modelo de IA aprende padrões e relacionamentos nos dados de treinamento para desenvolver sinapses virtuais para imitar a inteligência.
Fase 3: Inferência de IA — Operar em um ambiente do mundo real para fazer previsões ou decisões com base em dados novos e não visíveis.

A fase 3 é geralmente suportada com as redes de data center e nuvem existentes. No entanto, a fase 2 (treinamento de IA) requer um grande volume de dados e recursos de computação para apoiar seu processo iterativo, no qual o modelo de IA aprende com os dados coletados continuamente para refinar seus parâmetros. As unidades de processamento gráfico (GPUs) são bem adequadas para cargas de trabalho de aprendizado e inferência de IA, mas devem trabalhar em clusters para serem eficientes. O aumento da escala em clusters melhora a eficiência do modelo de IA, mas também aumenta o custo, portanto, é fundamental usar uma rede de data center com IA que não impeça a eficiência do cluster.

Muitos, até mesmo dezenas de milhares de servidores de GPU (com gastos superiores a US$ 400.000 por servidor em 2023), devem ser conectados para treinar modelos grandes. Como resultado, otimizar o tempo de conclusão de trabalho e minimizar ou eliminar a latência final (uma condição em que as cargas de trabalho de IA mais baixas retardam a conclusão de todo o trabalho de IA) são fundamentais para otimizar o retorno do investimento em GPUs. Nesse caso de uso, a rede de data center com IA deve ser 100% confiável e não causar degradações de eficiência no cluster.

Como funciona a rede de data center com IA?

Embora os servidores de GPU onerosos normalmente elevem o custo geral dos data centers com IA, a rede de data centers com IA é crucial, uma vez que uma rede de alto desempenho é necessária para maximizar a utilização da GPU. A Ethernet é uma tecnologia aberta e reconhecida, ideal para fornecer essa solução implantada em uma arquitetura de rede de data center aprimorada para IA. Os aprimoramentos incluem gerenciamento de congestionamento, balanceamento de carga e latência minimizada para otimizar o tempo de conclusão de trabalho (JCT). Por fim, o gerenciamento e a automação simplificados garantem confiabilidade e desempenho contínuo.

Design de malha

Vários projetos de malha podem ser usados em redes de data center com IA; no entanto, uma malha de Clos sem bloqueio "any-to-any" (entre dois ou mais pontos) é recomendada para otimizar a estrutura de treinamento. Essas malhas são construídas usando uma velocidade de rede consistente de 400 Gbps (passando para 800 Gbps) da NIC para o leaf e através do spine. Uma malha sem bloqueio de duas camadas e três estágios ou uma malha sem bloqueio de três camadas e cinco estágios pode ser usada dependendo do tamanho do modelo e da escala da GPU.

Controle de fluxo e prevenção de congestionamento

Além da capacidade de malha, considerações de projeto adicionais aumentam a confiabilidade e a eficiência da malha geral. Essas considerações incluem interconexões de malha de tamanho adequado com o número ideal de links e a capacidade de detectar e corrigir desequilíbrios de fluxo para evitar o congestionamento e a perda de pacotes. A notificação explícita de congestionamento (ECN) com notificação de congestionamento quantificado no data center (DCQCN) e o controle de fluxo baseado em prioridade resolvem os desequilíbrios de fluxo para garantir uma transmissão sem perdas.

Para reduzir o congestionamento, o balanceamento de carga dinâmico e adaptativo é implantado no switch. O balanceamento de carga dinâmico redistribui os fluxos localmente no switch para distribuí-los de forma uniforme. O balanceamento de carga adaptável monitora o encaminhamento de fluxo e as tabelas de próximo salto para identificar desequilíbrios e desviar o tráfego dos caminhos congestionados.

Quando o congestionamento não é evitado, a ECN envia notificação antecipada aos aplicativos. Durante esses períodos, leafs e spines atualizam os pacotes habilitados para ECN para notificar os remetentes sobre o congestionamento, o que faz com que os remetentes diminuam a velocidade de transmissão para evitar quedas de pacotes em trânsito. Se os endpoints não reagirem a tempo, o controle de fluxo baseado em prioridade (PFC) permite que os receptores de Ethernet compartilhem feedback com os remetentes sobre a disponibilidade de buffer. Por fim, durante os períodos de congestionamento, os leafs e spines podem interromper ou limitar o tráfego em links específicos para reduzir o congestionamento e evitar a queda de pacotes, permitindo transmissões sem perdas para classes de tráfego específicas.

Escala e desempenho

A Ethernet emergiu como a solução de padrão aberto preferida para lidar com os rigores dos aplicativos de IA e de computação de alto desempenho. Ela evoluiu ao longo do tempo (incluindo a progressão atual para 800 GbE e a ponte de data center (DCB)) para se tornar mais rápida, mais confiável e escalável, tornando-se a escolha preferida para lidar com alta taxa de transferência de dados e requisitos de baixa latência necessários para aplicativos de IA de missão crítica.

Automação

A automação é a peça final para uma solução de rede de data center com IA eficaz, embora nem toda a automação seja criada da mesma forma. Para aproveitar ao máximo, o software de automação deve oferecer operações de experiência em primeiro lugar. Isso é usado em projeto, implantação e gerenciamento do data center com IA de forma contínua. Automatiza e valida o ciclo de vida da rede de data center com IA do Dia 0 ao Dia 2+. Resulta em projetos e implantações de data center com IA repetíveis e continuamente validados que não apenas eliminam o erro humano, mas também aproveitam os dados de telemetria e fluxo para otimizar o desempenho, facilitar a solução de problemas proativa e evitar interrupções.

A solução de rede de data center com IA da Juniper baseia-se em décadas de experiência em rede e inovações em AIOps

A solução de rede de data center com IA da Juniper se baseia em nossas décadas de experiência em rede e inovações de AIOps para aperfeiçoar as soluções de rede com IA baseadas em Ethernet abertas, rápidas e simples de gerenciar. Essas malhas de alta capacidade, escaláveis e sem bloqueio oferecem o mais alto desempenho de IA, o tempo de conclusão de trabalho mais rápido e a utilização de GPU mais eficiente. A solução de rede de data center com IA da Juniper utiliza três pilares arquitetônicos fundamentais:

Desempenho massivamente escalável — Para otimizar o tempo de conclusão de trabalho e, portanto, a eficiência da GPU
Abertura padrão do setor — Para estender as tecnologias de data center existentes com ecossistemas orientados para o setor que promovem a inovação e reduzem os gastos a longo prazo
Operações de experiência em primeiro lugar — Para automatizar e simplificar o projeto, a implantação e as operações de data center com IA para malhas de back-end, front-end e armazenamento

Esses pilares são suportados por:

Um projeto de rede de data center com IA de alta capacidade e sem perdas aproveitando uma malha de Clos sem bloqueio "any-to-any", a topologia mais versátil para otimizar as estruturas de treinamento de IA
Switches e roteadores de alto desempenho, incluindo roteadores da Série PTX da Juniper, baseados no Juniper Express Silicon para spine/super spine, e nos switches da Série QFX, baseados nos ASICs Tomahawk da Broadcom como switches leaf que oferecem conectividade com o servidor de IA
Eficiência de malha com controle de fluxo e prevenção de colisão
Escala e desempenho de Ethernet aberta e baseada em padrões com 800 GbE
Automação extensa usando o software de rede baseado em intenção Juniper Apstra® para automatizar e validar o ciclo de vida da rede de data center com IA do Dia 0 ao Dia 2+

Perguntas frequentes sobre rede de data center com IA

Qual problema a rede de data center com IA resolve?

A rede de data center com IA resolve os requisitos de desempenho da IA generativa e de grandes modelos de IA de aprendizado profundo em geral. O treinamento em IA, em particular, requer um grande volume de dados e recursos de computação para apoiar seu processo iterativo, no qual o modelo de IA aprende com os dados coletados continuamente para refinar seus parâmetros. As unidades de processamento gráfico (GPUs) são bem adequadas para cargas de trabalho de aprendizado e inferência de IA, mas devem trabalhar em clusters para serem eficientes. O aumento da escala em clusters melhora a eficiência do modelo de IA, mas também aumenta o custo, portanto, é fundamental usar uma rede de data center com IA que não impeça a eficiência do cluster.

Muitos, até mesmo dezenas de milhares de servidores de GPU (com gastos superiores a US$ 400.000 por servidor em 2023), devem ser conectados para treinar modelos grandes. Como resultado, maximizar o tempo de conclusão de trabalho e minimizar ou eliminar a latência de cauda (uma condição em que as cargas de trabalho de IA mais baixas retardam a conclusão de todo o trabalho de IA) são fundamentais para otimizar o retorno do investimento em GPUs. Nesse caso de uso, a rede de data center com IA deve ser 100% confiável e não causar degradações de eficiência no cluster.

Quais são as vantagens da Ethernet sobre a InfiniBand para a rede de data center com IA?

Nas primeiras redes de treinamento de IA e computação de alto desempenho (HPC), a InfiniBand, uma tecnologia de rede proprietária de alta velocidade e baixa latência, inicialmente ganhou popularidade por sua comunicação rápida e eficiente entre servidores e sistemas de armazenamento. Hoje, a alternativa aberta, a Ethernet, está ganhando tração significativa no mercado moderno de redes de data center com IA e deve se tornar a tecnologia dominante.

Embora tecnologias proprietárias como a InfiniBand possam trazer avanços e inovação, elas são caras e cobram taxas premium onde os mercados competitivos de oferta e demanda não podem regular os gastos. Além disso, o pool de talentos de profissionais de rede que podem criar e operar uma rede Ethernet em comparação com uma rede InfiniBand proprietária é enorme, e há uma ampla gama de ferramentas disponíveis para gerenciar essas redes em comparação com a tecnologia InfiniBand, que é fornecida predominantemente pela Nvidia.

Depois do IP, a Ethernet é a tecnologia de rede mais adotada no mundo. A Ethernet evoluiu para se tornar mais rápida, mais confiável e escalável, tornando-se preferida para lidar com os requisitos de alta taxa de transferência de dados e baixa latência de aplicativos de IA. A progressão para 800 GbE e os aprimoramentos da Ethernet de ponte de data center (DCB) permitem a transmissão de dados de alta capacidade, baixa latência e sem perdas, tornando as malhas Ethernet altamente recomendáveis para o tráfego de IA de alta prioridade e de missão crítica.

Quais soluções/produções/tecnologia de rede de data center com IA a Juniper oferece?

A solução de rede de data center com IA da Juniper oferece um projeto de rede de data center com IA de alta capacidade e sem perdas que usa uma malha de Clos sem bloqueio "any-to-any", a topologia mais versátil para otimizar as estruturas de treinamento de IA. A solução aproveita os switches de Ethernet e roteadores de alto desempenho e baseados em padrões abertos com interfaces de até 800 GbE. Além disso, ela usa o software de rede baseado em intenção Juniper Apstra para automatizar e validar o ciclo de vida da rede de data center com IA do Dia 0 ao Dia 2+.

Centro de recursos

Produtos

Switches da Série QFX

Roteadores da série PTX

Software de Redes baseadas em intenção Apstra

O que é a rede de data center com IA?