예측 개요
이 페이지에서는 예측 분석 기능이 머신러닝 모델을 사용하여 미래의 동작과 이상값을 예측하여 네트워크의 잠재적 문제를 관리자에게 알리는 방법을 설명합니다.
예측 개요(베타)
예측 분석은 머신러닝(ML) 기술을 사용하여 리소스 활용 패턴 또는 장비 고장에서 발생할 수 있는 이상값을 예측합니다. 이 기능은 관리자가 문제를 사전에 해결하고 가능한 중단을 방지하는 데 도움이 됩니다.
Apstra 에지 디바이스는 Apstra에 구성된 프로브를 통해 네트워크 디바이스에 대한 데이터를 수신합니다. 에지 디바이스는 이 데이터를 DC Assurance로 전송하며, 여기서 ML 모델은 다음 작업을 수행합니다.
-
네트워크에서 수신된 데이터 포인트 집계
-
이러한 데이터 포인트를 사용하여 ML 모델을 교육하고 정상적인 동작을 학습하여 기준선을 생성합니다.
-
과거 데이터에 대해 학습된 ML 모델을 사용하여 미래 데이터 포인트 예측
-
미래 데이터 포인트가 구성된 임계값을 초과할 때 예측된 데이터의 편차를 식별합니다.
예측 분석 기능은 다음 메트릭에서 이상값을 식별합니다.
-
시스템 상태
-
옵티컬 인터페이스 상태
시스템 상태
예측 분석 기능은 시스템 CPU 활용도 및 시스템 메모리 활용도 메트릭에서 이상값을 식별합니다. Apstra의 Stream Receivers 프로브가 수집한 데이터를 사용하여 시스템 상태 메트릭을 학습 및 예측하고 편차를 식별합니다. 이 기능을 사용하면 네트워크 인프라의 문제를 사전에 식별하고 네트워크 트래픽에 영향을 미치기 전에 해결할 수 있습니다.
Edge 디바이스에 대한 실행 전 검사를 실행하고 스트림 수신기가 올바르게 구성되었는지 확인할 수 있습니다. 자세한 내용은 비행 전 검사를 참조하십시오.
Predictive Analytics는 다음과 같은 ML 알고리즘을 사용하여 시스템 상태 이상값을 예측합니다.
| 기능 |
머신러닝 알고리즘 |
설명 |
|---|---|---|
| 예측 |
라이트 그라데이션 부스트 머신(LGBM) |
여러 약한 모델을 결합하여 하나의 강력한 예측을 생성하는 의사 결정 트리에 기반한 앙상블 방법입니다. 그래디언트 부스팅은 모델을 순차적으로 구축하며, 각 모델은 이전 모델의 오류에 초점을 맞춥니다. |
Predictive Analytics는 ML 알고리즘을 사용하여 네트워크에서 수신한 데이터를 분석하여 네트워크 동작을 예측합니다. 이 기능이 활성화되면 예상되는 동작에 따라 모델을 학습시키고 이상값을 인식하기 위해 일정량의 데이터 포인트가 필요합니다. 예측의 정확성과 신뢰 수준은 분석에 사용할 수 있는 데이터가 많아짐에 따라 시간이 지남에 따라 향상됩니다.
옵티컬 인터페이스 상태
-
옵티컬 인터페이스 상태에 대한 예측 분석은 기술 프리뷰 기능입니다. 기술 프리뷰에 대한 자세한 내용은 Data Center Director 사용자 가이드의 주니퍼 Apstra 기술 미리 보기를 참조하십시오.
-
옵티컬 인터페이스 상태에 대한 예측 분석을 사용하려면 Data Center Director 인스턴스에서 버전 6.1 이상을 실행해야 합니다.
-
BER, FEC 및 CRC 메트릭을 기반으로 하는 옵티컬 인터페이스 상태 예측은 23.4X100D31, 25.2X100D10 및 25.4R1 Junos OS Evolved 릴리스를 실행하는 디바이스에서만 가능합니다.
광 케이블은 장거리에서 대기 시간이 짧고 에너지 효율성이 향상되며, 이는 대규모 클러스터에서 성능을 유지하는 데 매우 중요합니다. 옵티컬 인터페이스는 데이터 전송을 위해 옵티컬 케이블을 디바이스에 연결하는 포트입니다. 옵티컬 인터페이스는 독립적인 데이터 전송 채널 역할을 하는 여러 옵티컬 레인으로 구성됩니다. 각 레인은 전체 데이터 스트림의 일부를 전달하며, 여러 레인은 더 높은 전체 대역폭을 달성하기 위해 어그리게이션됩니다.
옵티컬 인터페이스 또는 레인의 잠재적인 문제를 조기에 식별하면 네트워크 관리자는 사전에 시정 조치를 취하여 링크 중단을 방지하고 지속적인 네트워크 안정성을 보장할 수 있습니다.
예측 분석 기능은 네트워크의 옵티컬 인터페이스와 레인에서 이상값을 식별합니다. Data Center Director의 다음 데이터를 사용하여 옵티컬 상태 메트릭을 예측하고 예상되는 동작에서 벗어난 부분을 식별합니다.
-
옵티컬 트랜시버 프로브가 수집한 디지털 옵티컬 모니터링(DOM) 메트릭 데이터.
-
DC 허브의 DC-Probes 분석 팩에 추가된 사용자 지정 프로브에 의해 수집된 BER(Bit Error Rate), FEC(Forward Error Correction) 및 CRC(Cyclic Redundancy Check) 메트릭 데이터입니다.
Predictive Analytics는 다음과 같은 ML 알고리즘을 사용하여 옵티컬 인터페이스 상태 이상값을 예측합니다.
| 기능 | 머신러닝 알고리즘 | 설명 |
|---|---|---|
| 예측 |
다변량 양방향 장단기 메모리 (BiLSTM) |
양방향 LSTM은 입력 시퀀스를 순방향 및 역방향으로 처리하여 모델이 입력 시퀀스의 과거와 미래 컨텍스트를 모두 캡처할 수 있도록 하는 방법입니다. 다변량 BiLSTM은 여러 관련 매개변수를 포함하는 데이터를 동시에 처리하고 분석합니다. |
예측 분석 기능은 DOM, BER, FEC 및 CRC 메트릭 데이터를 사용하여 옵티컬 메트릭 추세를 예측하고 링크 성능 저하를 나타내는 이상값을 표시합니다.
표 3 에는 DOM 메트릭과 옵티컬 링크 성능 저하를 나타내는 징후가 나와 있습니다.
표 4 에는 BER, FEC 및 CRC 메트릭과 옵티컬 링크 성능 저하를 나타내는 징후가 나열되어 있습니다.
| DOM 메트릭 |
설명 |
링크 성능 저하의 지표 |
|---|---|---|
| 수신 옵티컬 파워(Rx 파워) |
수신된 옵티컬 파워 |
값 감소 |
| 전송 옵티컬 파워(Tx 파워) |
출력 옵티컬 파워 |
불규칙한 값 감소 |
| 레이저 바이어스 전류 |
레이저 바이어스 전력 설정 전류의 크기 |
증가 또는 불규칙한 값 |
| 전압 |
물리적 포트의 전압 |
변동하거나 범위를 벗어난 값 |
| 온도 |
물리적 포트의 온도 |
값이 증가하거나 스파이크가 불규칙하게 나타나는 경우 |
| BER, FEC 및 CRC 메트릭 |
설명 |
링크 성능 저하의 지표 |
|---|---|---|
| FEC 수정 코드워드 속도 |
초당 FEC에 의해 수정된 오류 수 |
가치 증가 |
| FEC 수정되지 않은 코드워드 속도 |
초당 FEC에 의해 수정되지 않은 오류 수 |
가치 증가 |
| 사전 FEC BER |
FEC 메커니즘이 적용되기 전의 BER |
가치 증가 |
| Rx CRC 오류율 |
수신된 CRC 오류의 집계 증가율 |
가치 증가 |
| Tx CRC 오류율 |
전송된 CRC 오류의 집계 증가율 |
가치 증가 |
| FEC 히스토그램 |
각 FEC 히스토그램 빈의 코드워드 백분율 |
오류가 높은 구간에서 값 증가 |
옵티컬 링크 상태에 대한 예측 분석은 통계적 접근 방식을 사용하여 예측된 데이터에서 이상값을 탐지합니다. 다음 두 가지 요소를 기반으로 이상값을 표시합니다.
-
추세별 이상값 탐지
RX 전력의 예측값이 하락 추세를 보이고 바이어스 전류와 온도가 지정된 연속 일수 동안 상승 추세를 보이면 이상값이 상승합니다.
-
임계값에 기반한 이상값 탐지
옵티컬 상태 매개 변수의 예측값이 지정된 기간 동안 구성된 높은 알람 또는 보통 알람 임계값을 초과하면 이상값이 발생합니다.
참고:DOM 메트릭에 대한 임계값은 프로브에서 수신되고 옵티컬 트랜시버의 벤더 및 부품 번호를 기반으로 구성됩니다. 임계값은 사용자가 수정할 수 없습니다.
예측된 영향 보기
네트워크의 예측 이상값을 보려면 Assurance > Predictions 로 이동합니다 . 사이트 드롭다운을 사용하여 특정 사이트를 선택합니다. 시스템 상태 또는 옵티컬 이상값 카드를 클릭하여 선택한 유형의 이상값을 볼 수도 있습니다.
예측 탭에는 문제가 발생할 수 있는 예상 시간과 신뢰 수준별로 매핑된 이상값의 버블 차트가 표시됩니다. 각 버블은 네트워크 내의 디바이스에서 예측된 이상값을 나타냅니다. 버블의 크기는 특정 이상값의 영향을 받는 서비스의 수를 나타냅니다. 버블의 색상은 예측값이 시스템 정의 임계값을 초과하는지 여부에 따라 결정된 예측된 이상값의 심각도 수준을 나타냅니다. 예측값이 보통 임계값을 초과하면 주요 심각도 수준의 이상값이 발생합니다. 예측 값이 경보 임계값을 초과하면 임계 심각도 수준의 이상값이 발생합니다. 신뢰 수준은 예측의 신뢰도를 백분율로 표시합니다. 예상된 이상값의 요약을 보려면 풍선을 선택합니다. 풍선을 클릭하면 선택한 이상값에 대한 정보가 포함된 요약 카드가 표시됩니다.
네트워크 토폴로지의 단일 노드에는 여러 개의 예측된 이상값이 겹치는 거품으로 표시될 수 있습니다. 네트워크 토폴로지의 다른 노드에는 중첩 거품으로 표시되는 유사한 신뢰도 또는 심각도 수준을 가진 여러 예측 이상값이 있을 수도 있습니다. 요약 카드에는 선택한 거품과 겹치는 이상값의 총 수가 표시됩니다. 풍선 또는 요약 카드를 클릭하여 겹치는 모든 이상값을 순환합니다.
또한 Predictions(예측) 섹션의 오른쪽 상단에 있는 목록 아이콘을 선택하여 그림 4와 같이 예측된 이상값을 목록에서 볼 수 있습니다. 목록 보기는 영향을 받는 디바이스의 세부 정보, 이상값의 신뢰도 및 심각도 수준, 이벤트가 발생할 수 있는 예측 시간과 함께 예측된 이상값을 테이블에 표시합니다.
예측 분석 기능은 24시간 동안 발생할 수 있는 시스템 상태 이상값과 15일 동안 발생할 수 있는 옵티컬 인터페이스 상태 이상값을 예측합니다.
예측 섹션의 오른쪽 상단에 있는 드롭다운 옵션을 사용하여 문제가 발생할 수 있는 예상 시간 또는 특정 매개 변수별로 필터링합니다. 또한 필터 옵션을 사용하여 서비스 또는 클라이언트가 영향을 받는지, 이상값의 심각도 수준 또는 네트워크의 특정 디바이스에서 예측된 이상값을 기반으로 예측된 이상값을 표시할 수 있습니다.
오른쪽 창에는 선택한 사이트에서 영향을 받는 클라이언트 및 서비스의 수가 표시됩니다. 클라이언트 및 서비스 버튼을 클릭하여 영향을 받는 클라이언트의 전체 목록을 보고 검색할 수 있습니다.
검색
예측 이상값이 표시되지 않으면 다음과 같은 이유 때문일 수 있습니다.
-
네트워크 디바이스 및 옵티컬 링크가 예상대로 작동하고 있습니다.
-
예측 분석 기능은 새로 구성되었으며 신뢰할 수 있는 예측을 하기에는 아직 충분한 데이터를 사용할 수 없습니다.
-
스트리밍 수신기 및 옵티컬 트랜시버 프로브가 에지 디바이스에서 DC Assurance로 데이터를 전송하지 않습니다. 이 경우 프로브가 올바르게 구성되었는지, Apstra의 이러한 프로브에서 스트리밍이 활성화되어 있는지 확인하십시오.
예측된 이상값에 대해 영향을 받는 클라이언트 및 서비스 목록이 표시되지 않으면 다음과 같은 이유가 있을 수 있습니다.
-
네트워크에서 영향을 받는 디바이스를 통해 트래픽이 흐르지 않습니다.
-
DC Assurance가 에지 디바이스에서 트래픽 정보를 수신하지 않습니다. 이 경우 에지 디바이스에 대한 실행 전 검사를 실행하고 플로우 서버가 올바르게 구성되었는지 확인합니다. 자세한 내용은 비행 전 검사를 참조하십시오.
이상값에 대한 자세한 정보를 보려면
거품형 차트에서 거품을 선택하거나 예측 목록에서 이상값을 선택합니다.
요약 카드에서 세부 정보 보기 를 클릭하거나 예측 섹션의 오른쪽 상단에서 세부 정보 보기 아이콘을 선택합니다.
디바이스 세부 정보 페이지가 열리고 선택한 디바이스에 대한 자세한 메트릭이 표시됩니다.
디바이스 세부 정보 및 서비스 토폴로지 보기
디바이스 세부 정보 페이지에서 모니터링되는 파라미터에 대한 그래프가 각 파라미터에 대한 예측 대역과 함께 선택한 디바이스에 대한 예측 값과 함께 표시됩니다. 예측 밴드는 예측 방법의 신뢰 수준을 기반으로 미래 관측치가 속할 가능성이 있는 값의 범위를 나타냅니다. 예측 대역이 좁을수록 예측의 정확성과 신뢰도가 높다는 것을 나타냅니다. 넓은 예측 대역은 예측의 불확실성과 변동성을 나타냅니다.
선택한 리소스에 대해 예측된 모든 이상값이 포함된 경고가 각 이상값에 대한 예상 발생 시간과 함께 페이지 맨 위에 표시됩니다.
오른쪽 상단의 드롭다운 옵션에서 이상치 범주를 선택하여 요구 사항에 따라 표시된 그래프를 수정합니다.
-
시스템 상태의 경우 그래프는 선택한 디바이스의 기록, 현재 및 예상 CPU 및 메모리 사용량 데이터를 표시합니다.
-
옵티컬 인터페이스 상태의 경우 드롭다운에서 옵티컬 인터페이스를 선택하면 선택한 디바이스의 모든 옵티컬 인터페이스 상태 매개 변수에 대한 과거, 현재 및 예측 값이 포함된 그래프가 페이지에 표시됩니다.
드롭다운 옵션에서 데이터를 집계하고 그래프에 표시할 시간 간격을 선택할 수도 있습니다.
-
시스템 상태의 경우 그래프에 15분 또는 1시간 간격으로 집계된 데이터를 표시할 수 있습니다.
-
옵티컬 인터페이스 상태의 경우, 그래프에 1시간, 12시간 또는 1일 간격으로 집계된 데이터를 표시할 수 있습니다.
예측된 데이터 포인트에서 이상값이 감지되면 그래프에서 보라색으로 강조 표시됩니다. 이상값 위로 마우스를 가져가면 이상값 유형, 심각도, 이상값의 예상 시작 및 종료 시간 등과 같은 세부 정보를 볼 수 있습니다.
선택한 디바이스에서 예측된 이상값이 서비스 및 클라이언트에 영향을 미칠 것으로 예상되는 경우 서비스 토폴로지 옵션이 활성화됩니다. 서비스 토폴로지를 클릭하여 영향을 받는 서비스 및 클라이언트와 함께 네트워크 토폴로지 및 트래픽 플로우를 확인합니다.
예측의 이점
예측 분석 기능은 다음과 같은 이점을 제공합니다.
-
관리자에게 가능한 오류에 대한 조기 경고를 제공합니다.
-
예측된 이상값의 영향을 이해하는 데 도움이 됩니다.
-
관리자가 잠재적인 서비스 중단을 사전에 방지할 수 있도록 지원합니다.