Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 

경보

Contrail Insights 알람을 통해 인프라에서 조건이 충족되면 경보를 생성하도록 구성할 수 있습니다. Contrail Insights 수집 지점에서 지표에 대한 분산 분석을 수행하여 경보에 대응하는 이벤트의 효율적이고 기민한 대응력을 보장합니다. Contrail Insights에는 두 가지 유형의 알람이 있습니다.

  • 정적—사용자가 제공한 정적 임계값을 비교하는 데 사용됩니다.

  • 동적—동적 학습을 통해 학습된 적응 임계값을 비교에 사용됩니다.

이 주제의 섹션은 다음과 같습니다.

Contrail Insights Alarms 개요

정적 및 동적 알람의 경우 Contrail Insights Agent는 호스트, 인스턴스 및 네트워크 디바이스와 같은 여러 엔티티에 대해 지표(Contrail Insights에 의해 수집된 메트릭 참조)의 측정을 지속적으로 수집합니다. 또한 간단한 수집 이외에도 수집 시 메트릭 스트림을 분석하여 일치하는 경고 규칙을 식별합니다. 특정 알람의 경우, 에이전트는 사용자 지정 기능(평균, 표준 편차, 최소, 최대, 합)에 따라 샘플을 집계하고 각 사용자 지정 측정 간격에 대한 단일 측정을 생성합니다. 주어진 측정 간격에 대해 에이전트는 각 측정을 임계값과 비교합니다. 정적 임계값을 사용하는 알람의 경우 사용자 지정 비교 기능(위, 아래와 동일)을 사용하여 고정 값과 비교됩니다. 동적 임계값의 경우, 측정은 시간이 경과에 따라 측정된 값과 Contrail Insights 비교됩니다.

일치해야 하는 여러 간격을 요구하는 알람 매개 변수를 추가로 구성할 수 있습니다. 이를 통해 지속적인 조건에 맞게 알람을 구성하는 동시에, 소규모 기간 동안 성능을 탐지할 수 있습니다. 광범위한 범위에서 최대값은 과장된 조건일 수 있습니다. 하지만 평균적으로 정보를 희석할 수 있습니다. 작은 간격으로 측정하고 여러 간격으로 반복된 일치를 지켜보면 균형이 더 잘됩니다. 예를 들어, 3분 동안 CPU 사용량을 모니터링하기 위해 5초 간격 동안 평균 CPU 사용량을 비교하도록 알람을 구성할 수 있습니다. 36개(또는 36개의 일부 간격이 알람 조건과 일치할 때에만 경보를 발생)할 수 있습니다. 이를 통해 단순한 평균 또는 최대 3분 이상의 지속적인 성능 조건에 대한 가시성을 확보할 수 있습니다.

동적 임계값을 통해 과거 기록 동향에 따라 리소스 소모에 대한 이상값을 탐지할 수 있습니다. 리소스 사용은 주간의 일과 일에 따라 크게 다를 수 있습니다. 따라서 지표에 대한 정적 임계값을 설정하기가 어렵습니다. 예를 들어, 월요일 아침 10:00~오후 12시 사이에 CPU 사용량의 70%를 정상으로 간주할 수 있지만, 토요일 밤 9시부터 오후 10시 사이에는 동일한 양의 CPU 사용량이 비정상적으로 높은 것으로 간주될 수 있습니다.

동적 임계값을 Contrail Insights 알람이 적용되는 범위의 모든 리소스에서 메트릭에서 동향을 학습할 수 있습니다. 예를 들어, 호스트 어그리게이트에 대해 알람이 구성된 경우 Contrail Insights 해당 어그리게이트에서 호스트에 대해 수집된 메트릭 값에서 기준을 학습합니다. 마찬가지로 프로젝트에 대해 구성된 동적 임계값을 사용하는 경보는 해당 프로젝트의 인스턴스에 대해 수집된 지표 값에서 기준을 학습합니다. 그런 다음, 에이전트는 측정이 특정 기간 동안 학습된 기준값에서 탈피할 경우 경보를 생성합니다.

동적 임계값으로 알람을 만들 때 지표, 기준을 설정할 기간, 기준에서 확립되는 측정치에 대한 민감도를 선택합니다. 민감도는 높거나 중간 수준 또는낮음으로 구성할있습니다. 민감도가 높을 경우 기준에서 더 작은 이차를 보고하고, 그 반대의 경우도 더 작게 보고됩니다.

Contrail Insights 경보 작동

Contrail Insights Agent는 타임 시리즈 데이터 스트림에서 분산된 실시간 통계 분석을 제공합니다. Agent는 구성 가능한 슬라이딩 창 메커니즘을 사용하여 여러 측정 간격으로 메트릭을 분석합니다. 지표 데이터가 Contrail Insights 측정 간격의 알람 기준과 일치하는지 판단하면 경보가 생성됩니다. 샘플 집계의 유형과 경보에 대한 임계값을 구성할 수 있습니다. 정적 및 동적 알람의 두 가지 유형이 지원됩니다. 임계치가 측정된 측정 지표 데이터를 비교하는 데 사용되는 방식은 차이가 있습니다. 다음 섹션에서는 전체 슬라이딩 창 분석을 설명하고 분석에 사용되는 정적 임계값 및 동적 기준선에 대한 세부 사항을 설명합니다.

슬라이딩 윈도우 분석

Contrail Insights Agent는 슬라이딩 창 분석을 사용하여 알람을 평가합니다. 슬라이딩 창 분석은 구성 가능한 측정 간격 내의 지표 스트림을 정적 임계값 또는 동적 기준선과 비교합니다. 각 측정 간격의 길이는 1초 단위로 구성할 수 있습니다. 각 측정 간격에서 원시 타임 시리즈 데이터 샘플은 평균,최대, 최소 등의 통합 기능을 사용하여 결합됩니다. 집계된 값은 위 또는 아래와 같은 구성 가능한 비교 기능을 사용하여 정적 임계값 또는 동적 기준선과 비교합니다. 여러 측정 간격은 슬라이딩 윈도우로 구성됩니다. 슬라이딩 창에서 구성 가능한 간격 수가 Agent가 경보에 대한 통보를 생성하기 위한 규칙 기준과 일치해야 합니다.

그림 1: 경보 생성 역학 Alarm Generation Mechanics

그림 1은 슬라이딩 윈도우가 Interval Count 매개변수에 따라 지정된 6개의 인접 측정 간격(i1 ~ i6)으로 구성되는 예제를 보여줍니다. 측정 간격 i1에서 평균 샘플 S1, S2, S3이 S평균으로 계산됩니다. 경보 유형 정적 또는 동적에 따라 Savg는 구성된 정적 임계값과 비교하거나 위 또는 아래와 같은 사용자 지정 비교 기능을 사용하여 동적으로 학습된 기준선과 비교합니다. 비교의 출력은 특정 측정 간격을 예외가 있는 간격으로 표시하는지 여부를 판별합니다. 이 평가는 슬라이딩 창 내의 각 측정 간격(예: i1 - i6)에 대해 반복됩니다.

그림 1의예에서 에이전트는 측정 간격에 대한 총 값을 경보 유형에 따라 정적 임계값 또는 동적 기준값과 비교하여 두 간격(i2 및 i5)이 간격인지 파악합니다. 간격 i1이 경보가 구성된 첫 번째 간격인 경우, 간격 i6가 끝나면 경보가 활성화되고 Contrail Insights Agent가 최근의 6개 측정 간격 중 최소 2개 이상이 예외로 표시된다고 판단하면 경보가 활성화됩니다. 대시보드, 간격 수 및 예외가 있는 간격을 사용하여 알람이 구성되면 기본적으로 1로 설정됩니다. 따라서, 에이전트는 한 측정 간격에 대한 데이터를 처리한 후에 알람을 생성할 수 있습니다.

정적 경보

경보 정의 시 정적 경고 임계값이 제공됩니다. 그림 2는 정적 경보 정의의 예와 그에 상응하는 JSON이 알람의 API 구성에 사용되는 예제를 나타 내고 있습니다. 예제에 정의된 조건은 60초 측정 간격 동안 평균 샘플을 host.cpu.usage 평가하는 것입니다. 측정된 값은 80%의 정적 임계값과 비교하여 주어진 측정 간격이 경보 규칙과 일치하는지 여부를 파악합니다. 그림 2는 정적 경고 정의에서 구성 요소를 식별합니다.

그림 2: 정적 경보 정의 Static Alarm Definition

다음 예제는 JSON이 그림 2에 나와 있는 정적 경고 정의와 동등한것을 보여줍니다.

동적 경보

동적 경고 임계값은 경고가 Contrail Insights 엔티티 집합에 대한 히터 데이터를 사용하여 학습됩니다. 그림 3에는 동적 경보 정의의 예가 표시되어 있습니다. 그 뒤를 이어 경보의 API 구성에 사용되는 동급 JSON이 있습니다. 그림 3은 동적인 경고 정의에서 구성 요소를 식별합니다.

그림 3: 동적 경보 정의 Dynamic Alarm Definition

다음 예제에서는 JSON이 그림 3에나와 있는 정적 경고 정의와 동등한 것을 보여줍니다.

동적 임계값을 사용하는 경우 정적 임계값을 구성하지 않습니다. 대신 학습이 수행되는 방법을 제어하는 세 가지 매개 변수를 지정합니다. 학습 알고리즘은 엔터티 전반에 걸쳐 기준을 생성합니다. 기준은 평균값과 표준 편차로 구성됩니다. 기준은 추가 메트릭 데이터가 수집될 때 지속적으로 업데이트됩니다.

다음은 3가지 학습 매개 변수와 작동 방식에 대한 정보입니다.

BaselineAnalysisAlgorithm

동적 임계값을 결정하는 데 사용되는 머신 러닝 알고리즘을 선택합니다. 다음 알고리즘을 사용할 수 있습니다.

k-means

Contrail Insights k-means 알고리즘을 사용하여 매일 각 시간(최대 1주까지)의 세분화에서 엔티티 집합에 대한 예상 운영 범위를 생성합니다. 학습한 기준선은 구성 가능한 학습 기간 동안의 데이터를 사용하여 계산됩니다. 기준은 시간이 지날 때 최신 데이터를 기반으로 지속적으로 업데이트됩니다. k-means Baseline Analysis 알고리즘은 하루 중 특정 시간 동안 예상치 못한 성능을 관찰하는 데 유용합니다.

예를 들어, k-means 알고리즘은 오후 1:00 PM - 2:00 PM(80%+/- 10%)의 동적 기준을 학습할 수 있는 반면, 오전 3:00 ~ 4:00 AM 사이의 기준은 20%+/- 5%입니다. 측정된 측정 지표가 오전 3시 ~오후 4시 사이에 75%이지만, 오후 1시 ~ 오후 2시 사이에 동일한 측정이 허용되는 경우 경보가 발생하게 됩니다.

ewma

기하 급수적으로 EWMA(Weighted Moving Average) 알고리즘은 시간당 업데이트되는 단일 기준을 생성합니다. 구성 가능한 학습 기간 기간은 기존 데이터와 최근 데이터에 할당된 상대적 가중치를 제어할 수 있습니다. 이 알고리즘은 지표의 갑작스러운 변경을 탐지할 수 있는 경보를 생성하는 데 유용합니다.

예를 들어, EWMA 알고리즘은 지난 24시간 동안의 데이터로부터 60% +/- 10%의 동적 기준을 학습할 수 있습니다. 이 기준은 다음 1시간 간격으로 실시간 데이터가 정상 작동 지역과 멀어지지 여부를 판단하는 데 사용됩니다. 1시간 간격이 지나면 EWMA 기준선이 업데이트되어 향후 경고를 생성하는 데 새로운 업데이트된 기준선이 사용됩니다.

LearningPeriodDuration

동적 기준선은 과거 데이터를 사용하여 결정됩니다. 이 매개 변수는 동적 기준을 계산하는 데 가장 최근의 과거 데이터가 사용되는 기간을 지정합니다. 예를 들어 1시간, 1일 또는 1주일이죠. 규칙 구성 시 Contrail Insights 엔티티에 대한 충분한 히터 데이터가 충분하지 않을 수 있습니다. 이 경우 데이터를 이용할 수 있도록 학습이 수행됩니다. 한 번의 데이터 학습 기간이 제공되어 기준선이 생성된 후에 알람 평가가 시작됩니다.

감도

동적 경보의 민감도는 학습한 평균과 허용되는 크기에 따라 다른 것을 제어합니다. 민감도 매개 변수는 학습된 표준 편차를 배가합니다. 낮은, 중간 또는 민감도로 선택할 수 있습니다. Contrail Insights Agent는 실시간 측정을 다음과 같이 정의한 범위와 비교합니다.

mean - sensitivity * std_dev < x < mean + sensitivity * std_dev

알람 정의

그림 2는 정적 경고 정의의 예를 보여 주며 동일한 규칙에 대해 JSON을 따르고 있습니다. 각 알람 정의에는 그림 4에 표시된 다음과 같은 구성 요소가 있습니다.

그림 4: 정적 경보 규칙 구성 예 Static Alarm Rule Configuration Example

경고 정의를 위한 나열된 구성 요소는 번호가 매기고 다음 텍스트로 설명됩니다.

1. 이름

이름은 알람을 식별합니다. 이름이 Dashboard에 표시되고 외부 알림 시스템에 대한 사용자 대면 식별자입니다.

2. 모듈

알람이 선택되면 호스트, 인스턴스 및 네트워크 디바이스와 같은 엔티티에 대한 알람을 구성할 수 있습니다. Service Alarms를 선택하면 RabbitMQ, MySQL, ScaleIO, OpenStack 서비스 등의 서비스에 대한 알람을 구성할 수 있습니다.

3. 경고 규칙 유형

이를 통해 경보가 발생해야 하는지 여부를 판단하기 위해 경고가 사용하는 임계값의 유형을 결정합니다. 지원되는 두 가지 유형은 다음과 같습니다.

  • 정적—경보가 정적으로 정의되는 경우 규칙 정의에는 사전 정의된 정적 임계값이 포함되어야 합니다. 예를 들어, cpu.usage 정적 임계값은 80%가 될 수 있습니다.

  • 동적—경보가 동적으로 정의되는 경우 기준은 히터 데이터를 사용하여 학습됩니다. 기준 분석 알고리즘, 학습 기간 기간 및 민감도와 같은 추가 매개 변수가 필요합니다.

4. 이벤트 규칙 범위

호스트, 인스턴스 또는 알람이 적용되는 네트워크 디바이스와 같은 엔티티 유형 예를 들어 범위가 인스턴스로선택된 경우 인프라에 있는 모든 인스턴스 또는 특정 프로젝트 또는 통합에 있는 인스턴스에 대한 규칙을 추가로 구성할 수 있습니다.

5. 통합

알람이 모니터링할 엔티티 집합을 선택합니다. Scope가 인스턴스인 경우특정 프로젝트, 통합 또는 인프라의 모든 인스턴스에 있는 인스턴스 집합에 대한 경보를 구성할 수 있습니다. 범위가 호스트인경우 특정 집계에 있는 호스트 집합 또는 인프라의 모든 호스트에 대한 경보를 구성할 수 있습니다.

6. 경보 모드

모드는 경고 또는 이벤트로 구성할 수 있습니다.

  • 경고—Alert 모드로 설정된 알람의 상태가 표시됩니다. 경보 상태의 변경에 한해 이벤트가 생성 및 기록됩니다. 표 1에는 경고로 구성된 모드로 구성된 알람에 대한 모든 가능한 상태가 표시됩니다. 그림 5는 cpu 사용 메트릭에 대한 여러 상태 전환의 예를 보여줍니다. 정적 임계값이 50%입니다.

  • 이벤트—Event 모드로 설정된 알람은 Alert 모드로 설정된 알람과 유사한 것으로 평가됩니다. 중요한 차이점은 Event로 설정된 모드가 있는 알람이 경보에 대한 조건이 충족되는 각 간격에 대해 트리거된 상태를 유지하여 알림을 생성합니다. 경보에 대한 조건이 충족되지 않을 경우 에이전트는 경보에 대한 알림을 생성하지 않습니다. 그림 6에서와 같이, Event로 설정된 모드의 알람은 경고 모드가 설정된 알람보다 훨씬 많은 알림을 생성합니다.

그림 5: Cpu.usage에 대한 경고로 모드로 알람 상태 전환 정적 임계값 = 50% Alarm State Transition with Mode as Alert for Cpu.usage Static Threshold = 50%
표 1: 경고로 정의되는 Alarm 모드의 상태

상태

설명

학습

이는 각 경보의 초기 상태입니다. 이 경우, 경보는 경고가 발생해야 하는지 또는 그렇지 않은지 결정을 내리기 위해 충분한 데이터가 처리될 때까지 실시간 데이터 및 경보가 이 상태를 유지하게 됩니다. 학습 기간은 슬라이딩 창 매개 변수에 따라 달라지며, 그림 5는 시스템에서 규칙이 구성되면 학습 상태를 보여줍니다.

활성

경보에 의해 지정된 조건이 충족됩니다. 경보 조건이 충족된 한 경보는 이 상태를 유지하게 됩니다. 그림 5는 CPU 사용량이 76.05%로 탐지될 때의 활성 상태를 보여줍니다.

비활성

경보에 의해 지정된 조건은 충족되지 않습니다. 그림 5에서CPU 사용량이 13.5%(50% 임계값 이하)이기 때문에 학습 상태가 끝날 때 알람이 비활성 상태로 전환됩니다. CPU 사용량이 15.65%로 감소하면 경보가 활성 상태에서 비활성 상태로 전환됩니다.

비활성화

Agent는 이 알람에 대한 데이터를 능동적으로 분석하지 않습니다. 경보는 사용자에 의해 삭제되거나 일시적으로 비활성화됩니다.

그림 6: 이벤트 모드로 알람 상태 전환 Alarm State Transition with Mode as Event
표 2: 이벤트로 정의된 Alarm 모드의 상태

상태

설명

사용

이는 규칙이 구성되면 Event로 설정된 알람의 초기 상태입니다. 경보를 생성하기 위해 조건이 충족될 때까지 이 상태를 유지 그림 6에는 이벤트가 구성된 모드의 알람이 설정되면 활성화된 상태가 기록되는 것이 표시됩니다.

트리거

경보 생성 조건이 충족되면 트리거된 상태를 통해 경보가 생성됩니다. 경보에 대한 조건이 계속 충족되는 한 각 측정 간격이 끝날 때 알람 생성이 로깅됩니다. 그림 6에서cpu.usage가 50% 이상 유지되는 동안 7개의 경고 이벤트가 생성됩니다.

비활성화

Agent는 이 알람에 대한 데이터를 능동적으로 분석하지 않습니다. 경보는 삭제되거나 사용자가 일시적으로 비활성화되었습니다.

7. 지표 이름

모니터링될 Contrail Insights 수집된 지표 예를 들어 host.cpu.usage 또는 instance.cpu.usage를 들 수 있습니다.

8. 집계 기능

한 측정 간격으로 수신된 데이터 샘플을 어떻게 처리하여 비교를 위한 집계된 값을 생성하는지 파악합니다. Agent는 측정 간격 동안 메트릭의 여러 샘플을 수집합니다. Agent는 측정 간격에서 임계값(정적 또는 동적)과 비교할 단일 값을 결정하기 위해 통합 기능에 따라 샘플을 결합합니다. 표 3은 경고 처리를 위한 집계 기능을 나열하고 설명하고 있습니다.

표 3: 경고 처리를 위한 집계 기능

집계 기능

설명

평균

1개의 측정 간격 내에서 수신된 모든 데이터 샘플의 통계 평균.

예: 60초 간격 동안 Cpu 사용량 평균이 지난 3 측정 간격 중 2의 80% 이상인 경우 호스트 경고를 생성합니다.

이 예에서는 측정 간격이 60초입니다. CPU 사용 샘플의 평균이 인접한 측정 간격 3 간격에서 2개의 측정 간격으로 평균 80%를 초과하는 경우 경보가 생성됩니다.

합계

1개의 측정 간격 내에서 수신된 모든 데이터 샘플의 합계.

예: 60초 간격 동안 Cpu 사용량 합계가 마지막 3 측정 간격 중 250% 이상인 경우 호스트 경고를 생성합니다.

이 예제에서 각 측정 간격이 60초인 3 인접 측정 간격 중 2개 측정 간격에서 CPU 사용량 합이 250% 이상인 경우 경보가 생성됩니다.

최대

1회 측정 간격 내에서 관찰된 최대 샘플 값.

예: 60초 간격 동안 CPU-사용량이 최대 3 측정 간격 중 2%를 95% 이상인 경우 호스트 경고를 생성합니다.

이 예제에서 각 측정 간격이 60초인 3 인접 측정 간격 중 2개 측정 간격에서 최대 CPU 사용량이 95% 이상인 경우 경보가 생성됩니다.

1회 측정 간격 내에서 관찰된 최소 샘플 값.

예: 60초 간격 동안 Cpu-사용량 최소가 지난 3 측정 간격의 2%이하인 경우 호스트 경고를 생성합니다.

이 예제에서 각 측정 간격이 60초인 3 인접 측정 간격 중 2개 측정 간격에서 최소 CPU 사용량이 5% 미만인 경우 경보가 생성됩니다.

Std-Dev

표준 타임 시리즈 데이터의 편차는 현재 측정 간격까지 수신된 샘플에 따라 결정됩니다.

예: 60초 간격 동안 Cpu 사용량 std-dev가 마지막 3 측정 간격 중 2개 시그마를 2개 이상인 경우 호스트 경고를 생성합니다.

이 예제에서, 원시 시계 시리즈 샘플이 마지막 3 측정 간격 중 최소 2 간격으로, 각 측정 간격이 60초인 경우 경보가 mean + 2*sigma 생성됩니다.

9. 비교 기능

어그리게이션 기능의 출력과 정적 또는 동적 임계값을 비교하는 방법을 설정합니다. 표 4에는 각기 다른 비교 기능이 지원되어 Contrail Insights 표시되어 있습니다. 그림 7그림 8은 비교 기능의 예시를 보여주며 최소 속도에서 증가 및 감소를 모두 보여주고 있습니다.

그림 7: 최소 속도 증가를 보여주는 비교 기능 Comparison Function Showing Increasing-at-a-minimum-rate-of
그림 8: 최소 속도의 감소를 보여주는 비교 기능 Comparison Function Showing Decreasing-at-a-minimum-rate-of
표 4: 경고 처리를 위한 비교 기능

비교 운영자

설명

위의

해당 측정 간격 내에서의 집계 기능 결과가 임계값을 초과하는지 여부를 파악합니다.

참고:

위 동적 임계값에대해 Contrail Insights 기능의 결과가 정상적인 작동 영역 외부인지 여부를 비교합니다(평균 +/- sigma*민감도).

아래

해당 측정 간격에 대해 결정된 집계 기능의 결과가 임계값 이하인지를 파악합니다.

참고:

동적 임계값의 경우, 아래에서는 집계 기능 결과가 정상적인 작동 영역 내에 있는지 여부를 비교합니다(평균 +/- sigma*민감도).

동등한

집계 기능의 결과가 임계값과 동일한지 여부를 파악합니다.

최소 속도 증가

이 비교 기능은 절대적인 가치가 아닌 주어진 메트릭의 값을 갑작스럽게 증가시 추적하는 데 관심이 있는 경우 유용합니다. 예를 들어, 짧은 간격으로 ingress 또는 egress 네트워크 대역폭이 증가하기 시작하면 경보가 발생하기를 원할 수 있습니다. 그림 7은 측정 간격 i1과 i2 사이의 지표 평균이 갑자기 증가하는 것으로 나타났습니다. 마찬가지로, 갑작스러운 증가는 측정 간격 i4에서 i5 사이의 측정 지표 평균으로 관찰됩니다.

예: 60초 간격 동안 평균적으로 host.network.ingress.bit_rate 마지막 3 측정 간격 중 25%의 최소 속도에서 증가하는 경우 호스트 경고를 생성합니다.

예를 들어, 평균 ingress 비트 속도가 3 아웃 아웃된 2 측정 간격에서 최소 25%까지 증가하면 경보가 발생하게 됩니다.

최소 속도에서

이 비교 기능은 절대적인 값이 아니라 주어진 지표의 갑작스러운 감소를 추적하는 데 관심이 있는 경우 유용합니다. 예를 들어, egress 네트워크 대역폭이 짧은 간격으로 감소하기 시작하면 근본 원인을 조사하기 위해 경보를 발생해야 할 수 있습니다. 그림 8은 측정 간격 i1과 i2 사이의 지표 평균의 갑작스러운 감소를 보여줍니다. 마찬가지로, 갑작스러운 감소는 측정 간격 i3와 i4 간의 측정 지표 평균에서 관찰됩니다.

예: 60초 간격 동안 평균 host.network.egress.bit_rate 마지막 3 측정 간격 중 25%의 최소 속도에서 감소하는 경우 호스트 경고를 생성합니다.

예를 들어, 3 사이의 측정 간격 2에서 평균 egress 비트 속도가 최소 25%로 감소하면 경보가 발생하게 됩니다.

10. 임계값

측정을 비교하는 수치입니다. Contrail Insights 정적 또는 동적인 두 가지 유형의 임계값을 지원할 수 있습니다.

  • 정적 임계값—경보가 구성될 때 지정되는 고정 값 예를 들어 90% 이상의 host.cpu.usage는 90%가정적 임계값인 경우를 예로 들 수 있습니다.

  • 동적 임계값—임계값은 시스템에서 동적으로 학습됩니다. 비경제적 학습은 과거 동향에 대해 학습하여 동적 임계값을 결정하는 데 사용됩니다. 예를 들어, 이벤트 규칙이 Host 통합에 대해 정의된 경우, 통합의 모든 구성원 호스트에서 수신된 데이터에 기준 분석 알고리즘을 적용하여 집계에 대해 동적 기준선이 결정됩니다. 그림 9는 히트 데이터의 가장 최근의 24시간 시간 프레임과 k-means 클러스터링 알고리즘을 사용하여 결정된 동적 기준선을 보여줍니다. 이 기준은 하루 시간 및 해당 기준 평균 평균 및 표준 편차를 고려하면서 다음 24시간 경고 생성에 사용됩니다. 예를 들어, 화요일 오전 8:00 - 오전 9:00에 계산된 기준선은 월요일 오전 8:00 - 오전 9:00에 경고 발생을 위한 참조 임계값으로 사용됩니다.

그림 9는 24시간의 데이터로 계산된 동적 기준선과 k-means 클러스터링 알고리즘을 보여줍니다. 하루 중 한 시간 동안 파란색 점은 청색 점, 녹색 mean 막대는 입니다. 자주색 mean + std-dev 막대는 mean - std-dev 입니다.

그림 9: 지난 24시간의 데이터 및 K-Means 클러스터링 알고리즘에 의해 결정된 동적 기준선 Dynamic Baseline Determined by Last 24 Hours of Data and K-Means Clustering Algorithm

그림 10에는 EWMA 알고리즘을 사용하여 24시간 동안의 히전 데이터로 계산된 동적 기준선이 표시하고 있습니다. 이 기준은 최신 24시간 데이터를 사용하여 다시 업데이트될 때까지 다음 1시간 동안 경고를 생성하는 데 사용됩니다.

그림 10: EWMA를 사용하여 지난 24시간의 과거 데이터로 결정된 동적 기준선 Dynamic Baseline Determined by Last 24 Hours of Historical Data Using EWMA

그림 11에는 동적 경보를 구성하기 위해 지정해야 하는 필수 매개 변수가 표시되어 있습니다.

그림 11: Alarm Definition의 동적 임계값에 필요한 매개 Required Parameters for the Dynamic Threshold in the Alarm Definition 변수

표 5는 동적 경보에 필요한 매개 변수와 지원되는 옵션을 설명하고 있습니다.

변수
표 5: 동적 경보에 필요한 매개

동적 임계값에 필요한 매개 변수

설명

지원되는 옵션

기본 분석 알고리즘

Baseline Analysis Algorithm은 히데이터에 대한 비지원 학습을 수행하는 데 사용됩니다. 새로운 데이터가 수신할 때 기준 분석은 지속적으로 수행됩니다.

  • K-Means 클러스터링

  • 기하 급수적인 가중 평균(EWMA)

학습 기간

학습 기간 기간은 기준을 결정하기 위해 Baseline Analysis Algorithm이 사용하는 히티지 데이터의 양을 지정합니다. 동적 기준은 최근 학습 기간의 데이터를 사용하여 지속적으로 업데이트됩니다.

동적 알람이 구성된 경우, 가능한 경우 가장 최근 학습 기간의 데이터를 사용하여 기준 분석이 수행됩니다. 가용 데이터가 충분하지 않다면Contrail Insights Agent는 첫 번째 기준선 세트를 학습하기 위해 충분한 데이터가 있는 즉시 지표를 평가합니다.

예를 들어: 학습 기간이 1일인 경우 에이전트는 지난 24시간의 메트릭과 시간당 기준선을 비교합니다.

예: 학습 기간이 1주일인 경우, 에이전트는 지난 7 x 24시간의 지표를 시간당 기준선과 비교합니다.

  • 1주일—지난 1주일 데이터의 각 시간마다 기준이 결정됩니다. 다음 1주일의 기준은 지난 주의 데이터를 기준으로 결정됩니다.

  • 1개월—지난 4주 데이터를 기준으로 기준이 결정됩니다. 기준선은 매 주당 시간(7 x 24개 기준선)에 대해 학습됩니다. 다음 1주일의 기준은 지난 4주 동안의 데이터를 기준으로 결정됩니다. 예를 들어, 월요일 오후 2시 ~ 오후 3시까지의 기준선은 지난 4일 월요일 오후 2시 ~ 오후 3:00의 지표 데이터를 사용하여 학습됩니다.

감도

동적 기준선은 해당 범위에 대한 해당 메트릭의 정상적인 운영 지역을 제공합니다. 그림 9에서와같은 동적 기준선은 하루 중 특정 시간 동안 적용할 수 있는 std-dev를 의미하는 tuple입니다.

민감도 요인은 허용되는 작동 대역을 결정합니다. 작동 대역 외부에서 측정된 경우를 제외하고는 간격을 유발합니다. 예를 들어 기준 평균이 20개이면 std-dev가 2인 경우, 정상 운영 지역은 18에서 22 사이입니다. 민감도가 낮을 경우 일반적인 작동 영역은 10(평균 - 5*std-dev) 및 30(평균 + 5*std-dev)로 처리됩니다. 이 경우 측정된 지표의 평균이 10에서 30 사이에 있는 경우 경보가 발생하지 않습니다. 반대로, 평균이 5 또는 35인 경우 경보가 발생하게 됩니다.

  • 낮음—기준을 넘어서는 모든 데이터 포인트는 5 * std-dev 이상적입니다.

  • 중형—기준을 넘어서는 모든 데이터 포인트는 3 * std-dev 이상적입니다.

  • 높음—기준을 넘어서는 모든 데이터 포인트는 2 * std-dev 이상적입니다.

11. 경고 심각도

경보의 심각성을 나타냅니다. 핵심은 주요 경보를 나타냅니다. 정보는 사소한 경보를 나타냅니다.

12. 통보

작동 조건을 알리는 통보 방법

13. 간격 기간

초 단위로 1회 측정 간격의 지속 시간. 관찰된 지표의 샘플링 주파수에 따라 간격 동안 하나 이상의 원시 샘플을 수신할 수 있습니다. 간격 기간 동안 수신된 모든 원시 샘플은 평균, 합계, 최대, 최소, std-dev와 같은 집계 기능을 사용하여 처리됩니다.

14. 예외가 있는 간격

이는 경보를 발생하기 위해 경보 조건을 충족해야 하는 슬라이딩 창 내의 최소 측정 간격 수입니다. 그림 3에는예외가 있는 두 간격이 있습니다. i2와 i5. Dashboard에서 알람을 구성할 때 예외가 있는 간격은 기본적으로 1로 설정됩니다. 예외가 있는 간격은 Dashboard에 Alarms 및 Add New Rule를 > 지정할 수 있습니다. Advanced를 선택하여 Advanced 설정을 확인합니다. 예외가 있는 간격은 간격 수보다 높을 수 없습니다.

15. 간격 수

경보가 생성되는지 또는하지 않는지 결정하기 전에 통계 분석을 수행한 최대 인접 측정 간격 수입니다. 그림 3 에는슬라이딩 창에 6 측정 간격(i1 ~ i6)이 있습니다. 각 측정 간격은 간격 기간 매개변수에 의해 지정된 기간을 가집니다. Dashboard에서 알람을 구성할 때 간격은 기본적으로 1로 설정됩니다. Interval Count는 Dashboard에 Alarms 및 Add New Rule를 > 수 있습니다. Advanced를 선택하여 Advanced 설정을 확인합니다.

16. 상태

경고 규칙의 상태를 설정하고 확인하는 데 사용됩니다. 활성화 또는 비활성화된 상태를 설정합니다.