Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

프론트엔드 개요

AI용 AI 프론트엔드는 사용자가 AI 시스템과 상호 작용할 수 있도록 하는 인터페이스, 도구 및 방법과 이러한 상호 작용을 가능하게 하는 인프라를 포함합니다. 프론트엔드는 사용자에게 기본 기술적 복잡성을 숨기면서 학습 또는 추론 작업을 시작하고 결과를 시각화할 수 있는 기능을 제공합니다.

프론트엔드 시스템의 주요 구성 요소는 다음과 같습니다.

  • 모델 스케줄링: 스크립팅된 AI 모델 작업을 관리하기 위한 도구 및 방법으로, 일반적으로 SLURM(Simple Linux Utility for Resource Management) 워크로드 관리자를 기반으로 합니다. 이러한 도구를 사용하면 사용자는 셸 CLI 또는 그래픽 웹 기반 인터페이스를 통해 지침, 명령 및 쿼리를 전송하여 GPU에서 실행되는 학습 및 추론 작업을 조정할 수 있습니다. 사용자는 모델 매개변수를 구성하고, 데이터를 입력하고, 결과를 해석할 수 있으며, 작업을 대화형으로 시작하거나 종료할 수 있습니다. AI JVD에서 이러한 도구는 AI 프론트엔드 패브릭에 연결된 헤드엔드 서버에서 호스팅됩니다.
  • AI 시스템 관리: AI 스토리지 및 처리 구성 요소를 관리(구성, 모니터링 및 유지 관리 작업 수행)하기 위한 도구입니다. 이러한 도구는 AI 모델을 효율적으로 구축, 실행, 훈련 및 활용하는 것을 용이하게 합니다. 예를 들면 SLURM, TensorFlow, PyTorch 및 Scikit-learn이 있습니다.
  • 패브릭 구성 요소 관리: 사용자가 요구 사항과 목표에 따라 패브릭 장치를 쉽게 배포하고 관리할 수 있도록 설계된 메커니즘 및 워크플로우입니다. 여기에는 디바이스 온보딩, 구성 관리 및 패브릭 구축 오케스트레이션과 같은 작업이 포함됩니다. 이 기능은 주니퍼 Apstra에서 제공합니다.
  • 성능 모니터링 및 오류 분석: 학습 및 추론 작업 중 모델 효율성을 평가하는 데 필수적인 정확도, 정밀도, 재현율, 계산 리소스 활용(예: CPU, GPU 사용량)과 같은 AI 모델과 관련된 주요 성능 지표를 추적하는 텔레메트리 시스템입니다. 또한 이러한 시스템은 학습 및 추론 작업 중 오류율과 실패 패턴에 대한 인사이트를 제공하고 AI 성능에 영향을 미칠 수 있는 모델 드리프트, 데이터 품질 문제 또는 알고리즘 오류와 같은 문제를 식별하는 데 도움이 됩니다. 이러한 시스템의 예로는 주니퍼 Apstra 대시보드, TIG Stack, Elasticsearch 등이 있습니다.
  • 데이터 시각화: 사용자가 AI 모델과 워크로드가 생성한 통찰력을 시각적으로 이해할 수 있게 해주는 애플리케이션 및 도구입니다. AI 출력을 기반으로 이해와 의사 결정을 향상시키는 효과적인 시각화를 제공합니다. 시스템 및 네트워크 수준의 성능을 모니터링하고 측정하는 데 사용되는 것과 동일한 텔레메트리 시스템이 일반적으로 이러한 시각화를 제공합니다. 이러한 도구의 예로는 주니퍼 Apstra 대시보드, TensorFlow 및 TIG 스택이 있습니다.
  • 사용자 인터페이스: 사용자 인터페이스 애플리케이션 및 도구와 GPU 및 스토리지 디바이스를 포함하여 작업을 실행하는 AI 시스템 간의 통신을 가능하게 하는 라우팅 및 스위칭 인프라입니다. 이 인프라는 사용자와 AI 기능을 효과적으로 활용하는 데 필요한 컴퓨팅 리소스 간의 원활한 상호 작용을 보장합니다.
  • GPU 간 제어: 통신 설정, QP GID(글로벌 ID), 로컬 및 원격 버퍼 주소, RDMA 키(메모리 액세스 권한을 위한 RKEY)를 포함한 정보 교환