Contrail 网络警报列表

表 1：Contrail 网络警报列表
警报名称	严重性	说明
`VRouterConnectionDown`	主要	到的 `<name>` `<connection_type>` 虚拟路由器连接 `<connection_id>` 已关闭。
`VRouterNonFunctional`	主要	虚拟路由器 `<name>` 无法正常运行。
`ControllerNonFunctional`	主要	控制器 `<name>` 无法正常工作。
`ControllerConnectionDown`	主要	到的`<connection_id>`控制器`<name>` `<connection_type>`连接已关闭。
`ControllerDBConnectionDown`	主要	控制器 `<name>` 与数据库连接已关闭。
`AlertmanagerFailedReload`	关键	重新加载 Alertmanager 配置失败。
`AlertmanagerMembersInconsistent`	关键	Alertmanager 群集的成员未找到所有其他群集成员。
`AlertmanagerFailedToSendAlerts`	警告	Alertmanager 实例无法发送通知。
`AlertmanagerClusterFailedToSendAlerts`	关键	群集中的所有 Alertmanager 实例都无法向关键集成发送通知。
`AlertmanagerClusterFailedToSendAlerts`	警告	群集中的所有 Alertmanager 实例都无法向非关键集成发送通知。
`AlertmanagerConfigInconsistent`	关键	同一群集内的 Alertmanager 实例具有不同的配置。
`AlertmanagerClusterDown`	关键	同一群集中一半或更多警报管理实例已关闭。
`AlertmanagerClusterCrashlooping`	关键	同一群集中一半或更多警报管理实例正在发生崩溃。
`ConfigReloaderSidecarErrors`	警告	`config-reloader` sidecar 在 10 米内没有成功重新加载。
`etcdInsufficientMembers`	关键	`etcd` 群集 “`<name>`”：成员不足（`<value>`）。
`etcdNoLeader`	关键	`etcd` 群集 “`<name>`”：成员 `<instance>` 没有领导者。
`etcdHighNumberOfLeaderChanges`	警告	`etcd` 群集“`<name>`”：实例 `<instance>` 在过去一小时内看到了 `<value>` 领导者的变化。
`etcdHighNumberOfFailedGRPCRequests`	警告	`etcd`群集 “`<name>`”：`<value>`etcd 实例`<instance>`上失败的请求 `<grpc_method>`百分比。
`etcdHighNumberOfFailedGRPCRequests`	关键	`etcd`群集 “`<name>`”：`<value>`etcd 实例`<instance>`上失败的请求`<grpc_method>`百分比。
`etcdGRPCRequestsSlow`	关键	`etcd` 群集 “`<name>`”：gRPC 请求 `<grpc_method>` 接收 `<value>`etcd 实例 `<instance>`。
`etcdMemberCommunicationSlow`	警告	`etcd` 群集 “`<name>`”：与 `<name>` 成员通信正在进行 `<value>`etcd 实例 `<instance>`。
`etcdHighNumberOfFailedProposals`	警告	`etcd` 群集 “`<name>`”： `<value>` 最后一小时内，etcd 实例 `<instance>`上的提议失败。
`etcdHighFsyncDurations`	警告	`etcd`群集 “`<name>`”：etcd 实例`<instance>`上有第 99 个百分点的同步持续时间`<value>`。
`etcdHighCommitDurations`	警告	`etcd`群集 “`<name>`”：etcd 实例`<instance>`上的第 99 个百分点提交持续时间`<value>`。
`etcdHighNumberOfFailedHTTPRequests`	警告	`<value>`etcd 实例`<instance>`上失败的请求`<method>`百分比。
`etcdHighNumberOfFailedHTTPRequests`	关键	`<value>`etcd 实例`<instance>`上失败的请求`<method>`百分比。
`etcdHTTPRequestsSlow`	警告	`etcd` 实例 `<instance>` HTTP 请求 `<method>` 速度较慢。
`TargetDown`	警告	无法访问一个或多个目标。
`KubeAPIErrorBudgetBurn`	关键	API 服务器正在燃烧太多的错误预算。
`KubeAPIErrorBudgetBurn`	警告	API 服务器正在燃烧太多的错误预算。
`KubeStateMetricsListErrors`	关键	`kube-state-metrics` 在列表操作中遇到错误。
`KubeStateMetricsWatchErrors`	关键	`kube-state-metrics` 在监控操作中遇到了错误
`KubeStateMetricsShardingMismatch`	关键	`kube-state-metrics` 分片配置错误。
`KubeStateMetricsShardsMissing`	关键	`kube-state-metrics` 碎片丢失了。
`KubePodCrashLooping`	警告	Pod 正在发生崩溃循环。
`KubePodNotReady`	警告	Pod 已处于未就绪状态超过 15 分钟。
`KubeDeploymentGenerationMismatch`	警告	由于可能的回滚，部署生成不匹配。
`KubeDeploymentReplicasMismatch`	警告	部署与预期的复本数量不匹配。
`KubeStatefulSetReplicasMismatch`	警告	部署与预期的复本数量不匹配。
`KubeStatefulSetGenerationMismatch`	警告	`StatefulSet` 由于可能回滚而导致的代配不匹配。
`KubeStatefulSetUpdateNotRolledOut`	警告	`StatefulSet` 更新尚未推出。
`KubeDaemonSetRolloutStuck`	警告	`DaemonSet` 部署停滞不前。
`KubeContainerWaiting`	警告	Pod 容器等待的时间超过 1 小时。
`KubeDaemonSetNotScheduled`	警告	`DaemonSet` Pod 未计划。
`KubeDaemonSetMisScheduled`	警告	`DaemonSet` Pod 计划错误。
`KubeJobCompletion`	警告	工作没有及时完成。
`KubeJobFailed`	警告	作业无法完成。
`KubeHpaReplicasMismatch`	警告	HPA 未匹配所需的复本数量。
`KubeHpaMaxedOut`	警告	HPA 以最大副本数运行。
`KubeCPUOvercommit`	警告	群集已过度提交 CPU 资源请求。
`KubeMemoryOvercommit`	警告	群集已过度提交 CPU 资源请求。
`KubeCPUQuotaOvercommit`	警告	群集已过度提交 CPU 资源请求。
`KubeMemoryQuotaOvercommit`	警告	群集存在过度提交的内存资源请求。
`KubeQuotaAlmostFull`	信息	名称空间配额将已满。
`KubeQuotaFullyUsed`	信息	命名空间配额已完全使用。
`KubeQuotaExceeded`	警告	命名空间配额已超过限制。
`CPUThrottlingHigh`	信息	进程会经历更高的 CPU 限制。
`KubePersistentVolumeFillingUp`	关键	`PersistentVolume` 正在填补。
`KubePersistentVolumeFillingUp`	警告	`PersistentVolume` 正在填补。
`KubePersistentVolumeErrors`	关键	`PersistentVolume` 配置时遇到了问题
`KubeVersionMismatch`	警告	所运行的 Kubernetes 组件的不同语义版本。
`KubeClientErrors`	警告	Kubernetes API 服务器客户端正在遇到错误。
`KubeClientCertificateExpiration`	警告	客户端证书即将到期。
`KubeClientCertificateExpiration`	关键	客户端证书即将到期。
`KubeAggregatedAPIErrors`	警告	Kubernetes 聚合 API 报告了错误。
`KubeAggregatedAPIDown`	警告	Kubernetes 聚合 API 已关闭。
`KubeAPIDown`	关键	目标从 Prometheus 目标发现中消失。
`KubeAPITerminatedRequests`	警告	Kubernetes `apiserver` 已终止 `<value>` 其传入请求。
`KubeControllerManagerDown`	关键	目标从 Prometheus 目标发现中消失。
`KubeProxyDown`	关键	目标从 Prometheus 目标发现中消失。
`KubeNodeNotReady`	警告	节点尚未就绪。
`KubeNodeUnreachable`	警告	无法访问节点。
`KubeletTooManyPods`	信息	Kubelet 正在以大容量运行。
`KubeNodeReadinessFlapping`	警告	节点就绪状态正在翻动。
`KubeletPlegDurationHigh`	警告	Kubelet Pod 生命周期事件生成器需要很长时间才能重新上市。
`KubeletPodStartUpLatencyHigh`	警告	Kubelet Pod 启动延迟太高。
`KubeletClientCertificateExpiration`	警告	Kubelet 客户端证书即将到期。
`KubeletClientCertificateExpiration`	关键	Kubelet 客户端证书即将到期。
`KubeletServerCertificateExpiration`	警告	Kubelet 服务器证书即将到期。
`KubeletServerCertificateExpiration`	关键	Kubelet 服务器证书即将到期。
`KubeletClientCertificateRenewalErrors`	警告	Kubelet 未能续订其客户端证书。
`KubeletServerCertificateRenewalErrors`	警告	Kubelet 未能续订其服务器证书。
`KubeletDown`	关键	目标从 Prometheus 目标发现中消失。
`KubeSchedulerDown`	关键	目标从 Prometheus 目标发现中消失。
`NodeFilesystemSpaceFillingUp`	警告	预计文件系统会在未来 24 小时内耗尽空间。
`NodeFilesystemSpaceFillingUp`	关键	预计文件系统会在未来 4 小时内耗尽空间。
`NodeFilesystemAlmostOutOfSpace`	警告	文件系统剩余的空间不到 5%。
`NodeFilesystemAlmostOutOfSpace`	关键	文件系统还剩不到 3% 的空间。
`NodeFilesystemFilesFillingUp`	警告	预计文件系统会在未来 24 小时内用完 inode。
`NodeFilesystemFilesFillingUp`	关键	预计文件系统会在未来 4 小时内用完 inode。
`NodeFilesystemAlmostOutOfFiles`	警告	文件系统剩余的 inode 不到 5%。
`NodeFilesystemAlmostOutOfFiles`	关键	文件系统剩余的 inode 不到 3%。
`NodeNetworkReceiveErrs`	警告	网络接口报告许多接收错误。
`NodeNetworkTransmitErrs`	警告	网络接口报告了许多传输错误。
`NodeHighNumberConntrackEntriesUsed`	警告	`conntrack`数量接近极限。
`NodeTextFileCollectorScrapeError`	警告	节点导出器文本文件收集器无法抓取。
`NodeClockSkewDetected`	警告	检测到时钟倾斜。
`NodeClockNotSynchronising`	警告	时钟不同步。
`NodeRAIDDegraded`	关键	RAID 阵列已降级。
`NodeRAIDDiskFailure`	警告	RAID 阵列中的故障设备。
`NodeFileDescriptorLimit`	警告	预计内核很快就会耗尽文件描述符限制。
`NodeFileDescriptorLimit`	关键	预计内核很快就会耗尽文件描述符限制。
`NodeNetworkInterfaceFlapping`	警告	网络接口的状态经常发生变化。
`PrometheusBadConfig`	关键	重新加载失败的 Prometheus 配置。
`PrometheusNotificationQueueRunningFull`	警告	Prometheus 警报通知队列预计在 30 米以内满运行。
`PrometheusErrorSendingAlertsToSomeAlertmanagers`	警告	Prometheus 遇到超过 1% 的错误会向特定警报管理器发送警报。
`PrometheusNotConnectedToAlertmanagers`	警告	Prometheus 未连接到任何警报管理员。
`PrometheusTSDBReloadsFailing`	警告	Prometheus 在从磁盘重新加载块时出现问题。
`PrometheusTSDBCompactionsFailing`	警告	Prometheus 存在压缩块的问题。
`PrometheusNotIngestingSamples`	警告	普罗米修斯不是在摄取样本。
`PrometheusDuplicateTimestamps`	警告	Prometheus 正在丢弃带有重复时间戳的样本。
`PrometheusOutOfOrderTimestamps`	警告	Prometheus 丢弃具有无序时间戳的样本。
`PrometheusRemoteStorageFailures`	关键	Prometheus 无法将样本发送到远程存储。
`PrometheusRemoteWriteBehind`	关键	Prometheus 远程写就落后了。
`PrometheusRemoteWriteDesiredShards`	警告	Prometheus 远程写所需的分片计算希望运行的分片数超过配置的最大分片数。
`PrometheusRuleFailures`	关键	Prometheus 规则评估失败。
`PrometheusMissingRuleEvaluations`	警告	由于规则组评估速度较慢，Prometheus 缺少规则评估。
`PrometheusTargetLimitHit`	警告	Prometheus 已经丢弃了目标，因为有些报废配置已经超过了目标限制。
`PrometheusLabelLimitHit`	警告	Prometheus 已丢弃目标，因为有些报废配置已超过标签限制。
`PrometheusTargetSyncFailure`	关键	普罗米修斯无法同步目标。
`PrometheusErrorSendingAlertsToAnyAlertmanager`	关键	Prometheus 遇到超过 3% 的错误会向任何 Alertmanager 发送警报。
`PrometheusOperatorListErrors`	警告	在控制器中执行列表操作时出错。
`PrometheusOperatorWatchErrors`	警告	在控制器中执行列表操作时出错。
`PrometheusOperatorSyncFailed`	警告	上一次控制器协调失败。
`PrometheusOperatorReconcileErrors`	警告	协调控制器时出错。
`PrometheusOperatorNodeLookupErrors`	警告	调和 Prometheus 时出错。
`PrometheusOperatorNotReady`	警告	Prometheus 操作员尚未就绪。
`PrometheusOperatorRejectedResources`	警告	被 Prometheus 操作员拒绝的资源。

Contrail 网络警报列表

相关文档