Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

AI-ML 데이터센터 개요

인공지능(AI) 및 머신러닝(ML) 애플리케이션이 확장됨에 따라 이러한 AI-ML 애플리케이션을 지원하는 네트워크에는 대규모 데이터 플로우를 처리할 수 있는 용량이 증가해야 합니다. 이 요구 사항은 AI-ML 데이터 세트를 저장하는 데이터 센터에 특히 해당됩니다. Junos® OS Evolved는 AI-ML 데이터센터를 위한 일련의 혁신적인 기능을 제공합니다. 네트워크 관리자는 이 가이드를 통해 이러한 기능을 구성하여 AI-ML 데이터센터 패브릭 내에서 운영을 최적화하는 방법을 배울 수 있습니다.

LLM(Large Language Model)과 같은 생성형 AI 및 ML 애플리케이션은 데이터 세트의 통계 분석을 기반으로 하며, 컴퓨팅 모델이 데이터에서 패턴을 찾는 빈도가 높을수록 결과에서 해당 패턴을 더 많이 강화합니다. 이 반복적인 패턴 발견을 통해 이러한 모델은 인간의 음성을 설득력 있게 모방하는 것과 같은 작업을 수행할 수 있습니다. 하지만 생성형 AI 애플리케이션은 학습하는 데 사용된 데이터 세트에 따라 성능이 달라집니다. 데이터 집합이 클수록 모델이 더 많은 패턴을 탐지할 수 있습니다. 이러한 이유로 AI 및 ML 애플리케이션에는 대규모 데이터 세트가 필요합니다. 이러한 데이터 세트는 데이터센터에 저장됩니다.

교육 속도를 높이기 위해 AI 및 ML 모델은 데이터센터 네트워크 내에서 병렬 컴퓨팅을 통해 교육되는 경우가 많습니다. GPU(그래픽 처리 장치)는 함께 클러스터되고 데이터 센터 전체에 분산된 서버 노드에서 호스팅됩니다. 이러한 GPU 클러스터에서는 복잡한 계산이 동시에 수행됩니다. 신경망은 클러스터 내 GPU의 출력을 동기화하여 완전히 훈련된 모델을 만들어야 합니다. 이 동기화를 위해서는 네트워크의 백엔드에서 대규모 데이터 플로우(이하 엘리펀트 플로우라고 함)의 지속적인 이동이 필요합니다.

AI-ML 데이터센터의 엘리펀트 플로우에는 강력한 네트워크가 필요합니다. 엘리펀트 플로우를 처리할 때 네트워크가 부족하면 트래픽 혼잡, 패킷 손실, 링크 장애 등의 문제가 빠르게 발생합니다. 이러한 네트워크 문제는 높은 수준의 정확도가 요구되는 데이터를 다룰 때 특히 용납할 수 없습니다. AI-ML 데이터센터에 이상적인 견고한 네트워크 설계 중 하나는 레일 최적화 스트라이프입니다. 이 AI 클러스터 아키텍처는 목적지와 동일한 레일에 있는 GPU로 데이터를 이동하여 네트워크 중단을 최소화합니다. IP Clos 아키텍처는 또 다른 기능적 AI-ML 데이터센터 패브릭 설계입니다.

® Junos OS Evolved를 실행하는 주니퍼 네트웍스 QFX 시리즈 스위치는 레일 최적화 스트라이프 아키텍처와 IP Clos 네트워크 설계 모두에 이상적인 후보입니다. 예를 들어, QFX5220-32CD, QFX5230-64CD, QFX5240-64OD 및 QFX5240-QD 스위치는 리프, 스파인 및 슈퍼스파인 디바이스와 같은 네트워크 유형 모두에서 잘 작동합니다. 이러한 스위치는 또한 배포 지점(POD)이라고 하는 리프 스파인 스위치 그룹으로도 잘 작동합니다. 데이터센터에 더 큰 AI-ML 클러스터를 구축하려면 슈퍼스파인 레이어를 사용하여 서로 다른 POD를 상호 연결할 수 있습니다. 이러한 스위치를 단일 POD 또는 여러 POD로 구축하여 유연성과 네트워크 이중화를 극대화할 수 있습니다. 또한 이러한 디바이스는 AI-ML 데이터센터에서 흔히 발생하는 여러 로드 밸런싱 및 트래픽 관리 문제를 해결하는 고급 AI-ML 기능을 지원합니다.