Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

AI-ML 数据中心概述

随着人工智能 (AI) 和机器学习 (ML) 应用的扩展,支持这些 AI-ML 应用的网络需要增加容量来处理大型数据流。对于存储 AI-ML 数据集的数据中心来说,这一要求尤其如此。Junos® OS 演化版为 AI-ML 数据中心提供了一系列创新功能。网络管理员可以使用本指南了解如何配置这些功能来优化 AI-ML 数据中心交换矩阵内的作。

生成式 AI 和 ML 应用(如大型语言模型 (LLM))基于对数据集的统计分析:计算模型在数据中发现模式的频率越高,它在输出中就越能强化该模式。通过这种重复的模式发现,这些模型能够完成一些任务,例如令人信服地模仿人类语言。然而,生成式 AI 应用的好坏取决于训练它的数据集。数据集越大,模型能够检测到的模式就越多。因此,AI 和 ML 应用需要大型数据集。这些数据集存储在数据中心内。

为了提高训练速度,人工智能和机器学习模型通常通过并行计算在数据中心网络内进行训练。图形处理单元 (GPU) 聚集在一起,并托管在分布在数据中心的服务器节点上。复杂的计算在这些 GPU 群集上同时发生。网络必须同步群集中 GPU 的输出,以创建经过完全训练的模型。这种同步需要大型数据流(以下称为 大象流)在网络后端的持续移动。

AI-ML 数据中心中的“大象流”需要强大的网络。在处理大象流时,网络不足很快就会遇到流量拥塞、丢包和链路故障等问题。在处理需要高精度的数据时,这些问题尤其令人无法接受。Rail-Optimized Stripe 是 AI-ML 数据中心理想的一种强大网络设计。此 AI 群集架构通过将数据移动到与目的地位于同一轨道上的 GPU,最大限度减少了网络中断。IP Clos 架构是另一种功能齐全的 AI-ML 数据中心交换矩阵设计。

® 运行 Junos OS 演化版的瞻博网络 QFX 系列交换机是轨道优化条带架构和 IP Clos 网络设计的理想之选。例如,QFX5220-32CD、QFX5230-64CD、QFX5240-64OD 和 QFX5240-QD 交换机在两种网络类型中均可作为叶设备、主干设备和超级主干设备很好地工作。这些交换机还可以作为一组称为分布点 (POD) 的叶脊式交换机正常运行。要在数据中心构建更大的 AI-ML 群集,您可以使用超级主干层互连不同的 POD。您可以将这些交换机部署为单个 POD 或多个 POD,以获得最大的灵活性和网络冗余。此外,这些设备支持高级 AI-ML 功能,可解决 AI-ML 数据中心中常见的许多负载平衡和流量管理问题。