Marvis作:洞察后端运维
仔细了解 Marvis 用于识别关键问题并将其归类为 Marvis作的因素。
Marvis 会主动扫描您的网络以查找事件和切实可行的洞察。Marvis 利用统计数据和事件数据,识别与有线、WAN 和无线连接相关的用户影响问题,从而实现连接前和连接后的体验。通过突出显示高效作和自动进行根本原因分析,Marvis 有助于缩短解决问题的平均时间 (MTTR/MTTI)。
请注意,Marvis作并不能取代警报。当事件发生时,警报会实时触发,例如端口启动或关闭事件。有关警报的信息,请参阅 警报概述。
术语表
术语 | 定义 |
---|---|
模型输入功能 | 模型用于确定是否满足生成特定作的条件的输入或特征。 |
触发条件 | 触发模型以创建 Marvis作的条件。 |
验证时间 | Marvis 将未解决的 Marvis作标记为已解决所花费的时间。用户可能已经解决了这个问题。或者这些症状可能不再被观察到。 |
第 1 层作
Marvis 行动 | 模型输入功能 | 触发条件 | 验证时间 |
---|---|---|---|
电缆故障 | 接入点、交换机或 WAN 边缘统计信息、事件 | 在监控期间内,速度变化、端口报告错误、交换机端口链路处于活动状态但未传递流量以及频繁断开和重启(仅接入点)。 | 7天 |
连接作
Marvis 行动 | 模型输入功能 | 触发条件 | 验证时间 |
---|---|---|---|
身份验证失败 | 有线和无线客户端 | 与预测基线的偏差。基于 LSTM 的模型为整个站点的身份验证成功或失败事件提供基准。 该模型会考虑问题的严重性来生成此 Marvis作。严重性和与基线的偏差越高,模型在观察到的时间段内生成此作的置信度就越高。 |
1 天 |
DHCP 故障 | 有线和无线客户端 | 与预测基线的偏差。基于 LSTM 的模型为整个站点的动态主机配置协议 (DHCP) 成功或失败事件设立基准。 该模型会考虑问题的严重性来生成此 Marvis作。严重性和与基线的偏差越高,模型在观察到的时间段内生成此作的置信度就越高。 |
1 天 |
ARP 故障 | 有线和无线客户端 | 与预测基线的偏差。基于 LSTM 的模型为整个站点的地址解析协议 (ARP) 成功或失败事件设立基准。 该模型会考虑问题的严重性来生成此 Marvis作。严重性和与基线的偏差越高,模型在观察到的时间段内生成此作的置信度就越高。 |
1 天 |
DNS 故障 | 有线和无线客户端 | 与预测基线的偏差。基于 LSTM 的模型为整个站点的域名系统 (DNS) 成功或失败事件建立基准。 该模型会考虑问题的严重性来生成此 Marvis作。严重性和与基线的偏差越高,模型在观察到的时间段内生成此作的置信度就越高。 |
1 天 |
接入点作
Marvis 行动 | 模型输入功能 | 触发条件 | 验证时间 |
---|---|---|---|
离线 | AP 统计信息 | 一个或多个接入点本地运行或关闭(仅云连接丢失)。 该模型通过关联来确定接入点宕机的原因,即问题是否是由交换机、站点、区域或 ISP 中断引起的。 如果您希望在设备脱机时收到通知,请为设备启动或关闭事件配置基础架构警报,并指定阈值。 |
15 分钟 |
运行状况检查失败 | AP 统计信息 | 自动恢复后,接入点或射频仍重复无法作。 |
30天 |
不合规 | AP 统计信息 | 一个接入点或多个接入点上的固件版本与站点设置下配置的版本合规性设置中的固件版本不同。 |
30 分钟 |
覆盖盲区 | 接入点和客户端统计信息 | SLE 基线异常是由于与一个接入点或高影响区域中的多个接入点关联的所有客户端反复报告的低 RSSI 所致。 该模型考虑了室外接入点或位于建筑物入口或出口的接入点时问题的重复发生和边缘模式感知。 该模型会考虑异常的强度来生成 Marvis作,以指示影响用户的覆盖盲区问题。如果异常指数较强,则模型生成作的速度比异常指数较弱时更快。该模型会检查多批数据,以确定接入点是否存在覆盖盲区问题。 |
7天 |
容量不足 | 接入点和客户端统计信息 | 基线异常是由具有重复和长时间容量限制的接入点引起的,这些限制本质上是非季节性的。 该模型会考虑异常强度,以生成 Marvis作来指示影响用户的容量问题。如果异常指数较强,则模型生成作的速度比异常指数较弱时更快。该模型会检查多批数据,以确定接入点是否存在容量问题。 |
7天 |
检测到接入点环路 | AP 事件 | 由于配置错误或配置错误导致的网络环路导致的接入点上的反射事件。 当 AP 收到它在相同或不同 VLAN 上发送的数据包时,会发生反射事件。 反射事件几乎会立即在站点事件下生成,使您能够监控这些事件以进行基于原始统计信息的跟踪。 |
30 分钟 |
交换机作
Marvis 行动 | 模型输入功能 | 触发条件 | 验证时间 |
---|---|---|---|
缺少 VLAN | 接入点端口统计信息 | 缺少 VLAN 的接入点报告的上行链路端口统计信息。 此作会关联来自两个或多个接入点的数据,以确定接入点端口上是否缺少客户端使用的活动 VLAN。如果整个站点中的任何客户端未使用 VLAN,此关联有助于防止生成 缺少 VLAN 作。 |
30 分钟 |
协商不完整 | 单个交换机端口统计信息 | 交换机端口上报告的自动协商失败。 |
长达 60 分钟 |
MTU 不匹配 | 单个交换机端口统计信息 | 任何交换机端口和连接设备之间的 MTU 不匹配。报告的统计信息指示端口上的错误。 该模型会考虑生成 Marvis作的严重性和时间。MTU 不匹配越大,严重程度就越高,从而更快地生成 Marvis作。 |
1 天 |
检测到环路 | 交换机端口事件 | 在拓扑中有意或无意引入的环路,导致生成树协议 (STP) 拓扑的快速和重复变化。 该模型使用 STP 拓扑更改事件作为输入特征,并考虑严重性和时间。每个周期内 STP 拓扑变化的频率越高,检测速度越快。 或者,如果循环导致事件速度较慢且持续时间较长,也会触发 Marvis作。 |
30 分钟 |
网络端口抖动 | 交换机端口事件(仅限中继端口) | 在配置为中继端口的端口上一致的端口退回。 该模型考虑了频率和时间。端口抖动的频率越高,问题的严重性就越高。对于持续时间较长的慢速端口抖动,模型会在几小时或几天内检测到端口抖动。 |
30 分钟 |
高 CPU | 交换机机箱统计信息 | 在监控的持续时间内,平均 CPU 利用率始终大于 90%。 该模型考虑了问题的频率和持续时间。显示受监控数据集中每个样本的平均 CPU 利用率较高的统计数据表明存在严重的用户影响问题。该模型会针对此类问题快速生成 Marvis作。 |
30 分钟 |
端口卡住 | 交换机端口统计信息 | 接入端口上终端设备的流量模式突然出现偏差。 该模型不会为重复的季节性流量模式生成误报。它还会考虑跨类似端点的流量模式进行推理。 . Marvis 的这项作是自我驱动型的。当检测到 端口卡住 问题时,端口会自动退回,以便再次运行端点。 仅当端点在自动端口反弹后无法恢复运行,或者端口卡住问题多次重复出现时,模型才会生成作。 . |
30 分钟 |
流量异常 | 交换机端口统计信息 | 广播和组播帧计数器与预测流量模式的任何偏差。 该模型每隔几天就会对每个交换机或交换机端口上的流量模式进行基准评估。此作使用基于 长短期记忆 (LSTM) 的模型。 该模型会根据问题的严重程度生成此 Marvis作。对于在整个监控持续时间内持续的强烈偏差,模型会快速生成作。模型可能需要更长的时间才能为持续时间较短的微小偏差生成作。 |
1 天 |
端口配置错误 | 上行链路交换机端口统计信息 | 已识别的上行链路端口之间的 MTU、VLAN、模式或双工不匹配。 该模型可识别边缘交换机-交换机连接上的差异。 |
60 分钟 |
WAN 边缘作
Marvis 行动 | 模型输入功能 | 触发条件 | 验证时间 |
---|---|---|---|
MTU 不匹配 | WAN 边缘统计信息 | WAN 边缘端口与连接设备之间的 MTU 不匹配。该模型检查报告的统计信息,这些统计信息指示端口上的某些错误。 该模型会考虑生成此 Marvis作的严重性和时间。MTU 不匹配越大,严重性越大,并且作会在特定时间段内生成。 |
30 分钟 |
WAN 上行链路故障 | WAN 边缘上的上行链路端口 | WAN 端口统计信息中报告的高延迟、数据包丢弃、拥塞和网络服务故障(例如 ARP 或 DHCP),表明基准行为发生了变化。 被确定为高严重性问题的问题比低严重性问题更早列出。 |
1 天 |
VPN 路径向下 | VPN 隧道或对等路径 | 以下任一路径中的对等路径关闭问题:
如果您要求在每个端口启动或端口关闭方案上获取警报,请订阅原始警报的关键端口监控警报。 被确定为高严重性问题的问题比低严重性问题更早列出。 |
1 小时 |
不合规 | SRX 系列防火墙 | 主分区和备份分区上的 Junos OS 版本不同。 |
30 分钟 |
其他 Marvis作
Marvis 行动 | 模型输入功能 | 触发条件 | 验证时间 |
---|---|---|---|
持续故障的客户端 | 有线和无线客户端 | 客户端始终无法进行身份验证并无法连接到网络。在受监视的时间范围内持续观察到持续故障。 触发时间取决于站点,即客户端数量和相关的同时发生故障。 |
60 分钟 |
接入端口抖动 | 交换机上的接入端口 | 对于配置为接入端口的端口,一致的端口开启或端口关闭事件。 该模型考虑了问题的频率和持续时间。端口抖动的频率越高,问题的严重性就越高。对于持续时间较长的慢速端口抖动,模型会在几小时或几天内检测到端口抖动。 |
30 分钟 |