Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

디바이스 텔레메트리 상태 프로브

프로브 개요

디바이스 원격 분석 상태 프로브는 원격 분석 수집기 상태를 확인합니다. 사용 가능한 서비스 실행의 수집 통계에 대한 분석을 실행하고 원격 분석 수집 상태가 저하되면 이상이 발생합니다.

이 프로브에 대한 자세한 정보를 보려면 블루프린트에서 분석 > 프로브로 이동하여 프로브 작성을 클릭한 후 드롭다운 목록에서 사전 정의된 프로브 인스턴스화를 선택하십시오. Predefined Probe(사전 정의된 프로브) 드롭다운 목록에서 프로브를 선택하여 프로브와 관련된 세부 정보를 확인합니다.

AI 패브릭 개선 사항

버전 6.0은 디바이스 텔레메트리 상태 프로브를 개선하여 추가 텔레메트리 서비스를 모니터링하고 향후 서비스를 자동으로 포함합니다. 이러한 업데이트는 향후 서비스의 간소화된 통합을 통해 텔레메트리 수집 및 모니터링을 강화합니다.

디바이스 원격 분석 상태 프로브는 서비스 실행 통계를 분석하여 원격 분석 수집기 상태를 모니터링합니다. 또한 이 프로브는 텔레메트리 수집의 품질이 저하될 때 이상 징후를 탐지하여 선제적 대응이 가능합니다. 주요 특징은 다음과 같습니다.

  • 컴퓨팅 시스템 전반에서 중요한 텔레메트리 서비스 모니터링

  • 새로운 텔레메트리 서비스의 자동 통합

  • 트렌드 분석을 위한 과거 데이터 캡처

텔레메트리 서비스 모니터링

버전 6.0부터 디바이스 텔레메트리 상태 프로브는 컴퓨팅 시스템에서 실행되는 8개의 중요한 텔레메트리 서비스의 상태를 모니터링합니다. 다음은 모니터링되는 각 서비스에 대한 간단한 설명입니다.


기존 서비스:

  • 인터페이스: 네트워크 인터페이스의 작동 상태 및 구성을 추적합니다.

  • Interface_Counters: 패킷 수, 오류 및 삭제와 같은 인터페이스 통계를 모니터링합니다.

  • LLDP(Link Layer Discovery Protocol): 디바이스 간 토폴로지 및 연결성을 확인하기 위해 주변 검색 정보를 수집합니다.

  • 호스트 이름: 디바이스의 호스트 이름이 올바르게 정의되었는지 확인합니다.

  • resource_util: CPU, 메모리 및 스토리지와 같은 시스템 리소스 사용률을 모니터링합니다.

  • disk_util: 읽기/쓰기 작업 및 용량 사용률과 같은 디스크 사용량 통계를 모니터링합니다.

6.0에 추가된 서비스:

  • gpu_hardware_counters: 사용률 및 성능 카운터와 같은 GPU 하드웨어 메트릭을 모니터링합니다.

  • gpu_infiniband_dev_to_interface: InfiniBand Mellanox 인터페이스와 GPU NIC 간의 매핑을 추적합니다. 인터페이스의 상태를 모니터링합니다.

프로브 설정



프로브의 설정은 다음과 같습니다.
  • 최대 대기 시간: 120초(최대 서비스 실행 시간).

  • 변칙 기간: 10분(변칙 관찰 기간).

  • 임계값 기간: 6분(지속적인 실패가 경고를 트리거하는 데 필요한 시간).

  • 기록 보존 기간: 30일(원격 분석 데이터를 보존하는 시간).

  • 기간의 최대 gRPC 오류: 1개의 오류(gRPC 오류에 대한 임계값).

  • gRPC 오류 모니터링 기간: 5분(gRPC 오류 추적 기간).