AI 사용 사례 및 레퍼런스 설계

AI JVD 레퍼런스 설계는 프론트엔드 패브릭, GPU 백엔드 패브릭 및 스토리지 백엔드 패브릭을 포함하는 완전한 엔드투엔드 이더넷 기반 AI 인프라를 포괄합니다. 이 세 가지 패브릭은 공생 관계를 맺고 있으며, 각각 AI 학습 및 추론 작업을 지원하는 고유한 기능을 제공합니다. 고객은 AI 패브릭에서 이더넷 네트워킹을 사용함으로써 가장 빠른 작업 완료 시간을 제공하고, GPU 활용을 극대화하며, 한정된 IT 리소스를 사용하는 운영하기 쉬운 대용량 네트워크 패브릭을 구축할 수 있습니다.

그림 1에 표시된 AI JVD 참조 설계에는 다음이 포함됩니다.

프론트엔드 패브릭: 이 패브릭은 헤드엔드 서버에 상주하는 AI 도구의 GPU 노드 및 스토리지 노드에 대한 게이트웨이 네트워크입니다. 프론트엔드 GPU 패브릭을 통해 사용자는 GPU 및 스토리지 노드와 상호 작용하여 학습 또는 추론 워크로드를 시작하고 진행 상황과 결과를 시각화할 수 있으며, NVIDIA Collective Communications Library(NCCL) 및 RCCL(ROCm Communication Collectives Library) 모두에 대역 외 경로를 제공합니다.
GPU 백엔드 패브릭: 이 패브릭은 GPU 노드(AI 워크플로에 대한 계산 작업 수행)를 연결합니다. GPU 백엔드 패브릭은 학습 작업 중에 GPU 간에 무손실 방식으로 고속 정보를 전송합니다. GPU에서 생성된 트래픽은 RoCEv2(RDMA over Ethernet v2)를 사용하여 전송됩니다.
스토리지 백엔드 패브릭: 이 패브릭은 고가용성 스토리지 시스템(대규모 모델 학습 데이터 보관)과 GPU(학습 또는 추론 작업 중에 이 데이터 사용)를 연결합니다. 스토리지 백엔드 패브릭은 원활하고 안정적인 문제로 대량의 데이터를 전송합니다.

그림 1: AI JVD 레퍼런스 설계 AI JVD Reference Design

프론트엔드 개요

AI용 AI 프론트엔드는 사용자가 AI 시스템과 상호 작용할 수 있도록 하는 인터페이스, 도구 및 메서드와 이러한 상호 작용을 허용하는 인프라를 포함합니다. 프론트엔드는 사용자에게 기본 기술적 복잡성을 숨기면서 학습 또는 추론 작업을 시작하고 결과를 시각화할 수 있는 기능을 제공합니다.

프론트엔드 시스템의 주요 구성 요소는 다음과 같습니다.

모델 스케줄링: 스크립팅된 AI 모델 작업을 관리하기 위한 도구 및 방법으로, 일반적으로 SLURM(Simple Linux Utility for Resource Management) 워크로드 관리자를 기반으로 합니다. 이러한 도구를 사용하면 사용자는 셸 CLI 또는 그래픽 웹 기반 인터페이스를 통해 지침, 명령 및 쿼리를 전송하여 GPU에서 실행되는 학습 및 추론 작업을 조정할 수 있습니다. 사용자는 모델 매개변수를 구성하고, 데이터를 입력하고, 결과를 해석할 수 있으며, 작업을 대화형으로 시작하거나 종료할 수 있습니다. AI JVD에서 이러한 도구는 AI 프론트엔드 패브릭에 연결된 헤드엔드 서버에서 호스팅됩니다.
AI 시스템 관리: AI 스토리지 및 처리 구성 요소를 관리(구성, 모니터링 및 유지 관리 작업 수행)하기 위한 도구입니다. 이러한 도구는 AI 모델을 효율적으로 구축, 실행, 훈련 및 활용하는 것을 용이하게 합니다. 예를 들면 SLURM, TensorFlow, PyTorch 및 Scikit-learn이 있습니다.
패브릭 구성 요소 관리: 사용자가 요구 사항과 목표에 따라 패브릭 장치를 쉽게 배포하고 관리할 수 있도록 설계된 메커니즘 및 워크플로우입니다. 여기에는 디바이스 온보딩, 구성 관리 및 패브릭 구축 오케스트레이션과 같은 작업이 포함됩니다.
성능 모니터링 및 오류 분석: 학습 및 추론 작업 중 모델 효율성을 평가하는 데 필수적인 정확도, 정밀도, 재현율, 계산 리소스 활용(예: CPU, GPU 사용량)과 같은 AI 모델과 관련된 주요 성능 지표를 추적하는 텔레메트리 시스템입니다. 또한 이러한 시스템은 학습 및 추론 작업 중 오류율과 실패 패턴에 대한 인사이트를 제공하고 AI 성능에 영향을 미칠 수 있는 모델 드리프트, 데이터 품질 문제 또는 알고리즘 오류와 같은 문제를 식별하는 데 도움이 됩니다.
데이터 시각화: 사용자가 AI 모델과 워크로드가 생성한 통찰력을 시각적으로 이해할 수 있게 해주는 애플리케이션 및 도구입니다. AI 출력을 기반으로 이해와 의사 결정을 향상시키는 효과적인 시각화를 제공합니다. 시스템 및 네트워크 수준의 성능을 모니터링하고 측정하는 데 사용되는 것과 동일한 텔레메트리 시스템이 일반적으로 이러한 시각화를 제공합니다.
사용자 인터페이스: 사용자 인터페이스 애플리케이션 및 도구와 GPU 및 스토리지 디바이스를 포함하여 작업을 실행하는 AI 시스템 간의 통신을 가능하게 하는 라우팅 및 스위칭 인프라입니다. 이 인프라는 사용자와 AI 기능을 효과적으로 활용하는 데 필요한 컴퓨팅 리소스 간의 원활한 상호 작용을 보장합니다.
GPU 간 제어: 통신 설정, QP GID(글로벌 ID), 로컬 및 원격 버퍼 주소, RDMA 키(메모리 액세스 권한을 위한 RKEY)를 포함한 정보 교환.

GPU 백엔드 개요

AI용 GPU 백엔드는 학습 및 추론 작업 또는 컴퓨팅 작업을 실행하는 장치, 즉 데이터 처리가 발생하는 GPU 서버와 GPU가 작업을 완료하기 위해 서로 통신할 수 있도록 하는 인프라를 포함합니다.

GPU 백엔드 시스템의 주요 구성 요소는 다음과 같습니다.

AI 시스템: 다양한 계산을 동시에 실행할 수 있는 GPU(그래픽 처리 장치) 및 TPU(Tensor 처리 장치)와 같은 특수 하드웨어입니다. GPU는 학습 및 추론 작업을 완료하는 데 필요한 복잡한 행렬 곱셈 및 컨볼루션을 포함한 AI 워크로드를 처리하는 데 특히 능숙합니다. GPU 시스템의 선택과 수는 이러한 작업의 속도와 효율성에 큰 영향을 미칩니다.
AI 소프트웨어: AI 모델을 개발하고 실행하는 데 필수적인 운영 체제, 라이브러리 및 프레임워크입니다. 이러한 도구는 AI 알고리즘을 효과적으로 코딩, 교육 및 배포하는 데 필요한 환경을 제공합니다. 이러한 도구의 기능에는 다음이 포함됩니다.
- 데이터 관리: AI 모델의 학습 및 실행에 활용되는 데이터의 전처리 및 변환. 여기에는 정리, 정규화 및 기능 추출과 같은 작업이 포함됩니다. AI 데이터 세트의 양과 복잡성을 고려할 때 병렬 처리 및 분산 컴퓨팅과 같은 효율적인 데이터 관리 전략이 중요합니다.
- 모델 관리: 평가(예: 교차 검증), 선택(성능 지표를 기반으로 최적의 모델 선택) 및 배포(실제 애플리케이션에서 모델에 액세스할 수 있도록 만들기)를 포함하여 AI 모델 자체와 관련된 작업입니다.
GPU 백엔드 패브릭: 워크로드 분산, 메모리 공유, 모델 매개변수 동기화, 결과 교환 등을 위해 GPU 간 통신을 가능하게 하는 라우팅 및 스위칭 인프라입니다. 이 패브릭의 설계는 AI/ML 모델 학습 및 추론 작업의 속도와 효율성에 큰 영향을 미칠 수 있으며 대부분의 경우 GPU 간 트래픽에 대한 무손실 연결을 제공합니다.

스토리지 백엔드 개요

AI용 AI 스토리지 백엔드는 AI 워크로드와 관련된 방대한 양의 데이터를 저장, 검색 및 관리하기 위한 하드웨어 및 소프트웨어 구성 요소와 AI가 이러한 스토리지 구성 요소와 통신할 수 있도록 하는 인프라를 포함합니다.

스토리지 백엔드의 주요 측면은 다음과 같습니다.

고성능 저장 장치: 딥러닝과 같은 AI 작업의 집약적인 데이터 처리 요구 사항을 처리하는 데 필수적인 높은 I/O 처리량에 최적화되어 있습니다. 여기에는 모델 학습 중에 데이터에 대한 빠른 액세스를 촉진하고 대규모 데이터 세트의 스토리지 요구 사항을 수용하도록 설계된 고성능 스토리지 장치가 포함됩니다. 이러한 저장 장치는 다음을 제공해야 합니다.
- 데이터 관리 기능: 효율적인 데이터 쿼리, 인덱싱 및 검색을 지원하며, 이는 AI 워크플로우에서 전처리 및 기능 추출 시간을 최소화하고 추론 중 빠른 데이터 액세스를 촉진하는 데 중요합니다.
- 확장성: 증가하는 데이터 볼륨을 수용하고 시간이 지남에 따라 방대한 양의 데이터를 효율적으로 관리 및 저장하여 대규모 데이터 세트가 포함되는 AI 워크로드를 지원합니다.
스토리지 백엔드 패브릭: GPU와 스토리지 디바이스 간의 연결을 제공하는 라우팅 및 스위칭 인프라입니다. 이러한 통합을 통해 스토리지와 컴퓨팅 리소스 간에 데이터를 효율적으로 전송하여 전반적인 AI 워크플로 성능을 최적화할 수 있습니다. 스토리지 백엔드의 성능은 AI/ML 워크플로우의 효율성과 JCT에 큰 영향을 미칩니다. 데이터에 대한 빠른 액세스를 제공하는 스토리지 백엔드는 AI/ML 모델 훈련 시간을 크게 줄일 수 있습니다.