Marvis作:后端运维洞察
仔细研究 Marvis 用于识别关键问题并将其归类为 Marvis作的因素。
Marvis 会主动扫描您的网络,以查找事件和可作的洞察。使用来自统计数据和事件的数据,Marvis 可以识别与有线、WAN 和无线连接相关的影响用户的问题,无论是连接前还是连接后的体验。通过突出显示高效作和自动进行根本原因分析,Marvis 有助于缩短解决问题平均时间 (MTTR/MTTI)。
请注意,Marvis作不会取代告警。当事件发生时,系统会实时触发警报,例如端口启动或关闭事件。有关警报的信息,请参阅 警报概述。

术语表
| 术语 | 定义 |
|---|---|
| 模型输入特征 | 模型用于确定是否满足生成特定作的条件的输入或要素。 |
| 触发条件 | 触发模型创建 Marvis作的条件。 |
| 验证时间 | Marvis 将打开的 Marvis作标记为已解决所花费的时间。用户可能已修复该问题。或者可能不再观察到症状。 |
第 1 层作
| Marvis作 | 模型输入 | 特征触发条件 | 验证时间 |
|---|---|---|---|
| 电缆故障 | 接入点、交换机或 WAN 边缘统计信息、事件 | 在监控期间,速度变化、端口报告错误、交换机端口链路处于活动状态但未通过流量,以及频繁断开和重启(仅限接入点)。 | 7 天 |
连接作
| Marvis作 | 模型输入 | 特征触发条件 | 验证时间 |
|---|---|---|---|
| 身份验证失败 | 有线和无线客户端 | 与预测基线的偏差。基于 LSTM 的模型为整个站点的身份验证成功或失败事件设定了基准。 模型会考虑问题的严重性来生成此 Marvis作。严重性和与基线的偏差越高,模型在观察到的持续时间内生成此作的置信度就越高。 |
1 天 |
| DHCP 故障 | 有线和无线客户端 | 与预测基线的偏差。基于 LSTM 的模型为整个站点的动态主机配置协议 (DHCP) 成功或失败事件设定了基准。 模型会考虑问题的严重性来生成此 Marvis作。严重性和与基线的偏差越高,模型在观察到的持续时间内生成此作的置信度就越高。 |
1 天 |
| ARP 故障 | 有线和无线客户端 | 与预测基线的偏差。基于 LSTM 的模型为整个站点的地址解析协议 (ARP) 成功或失败事件设定了基准。 模型会考虑问题的严重性来生成此 Marvis作。严重性和与基线的偏差越高,模型在观察到的持续时间内生成此作的置信度就越高。 |
1 天 |
| DNS 故障 | 有线和无线客户端 | 与预测基线的偏差。基于 LSTM 的模型为整个站点的域名系统 (DNS) 成功或失败事件设定了基准。 模型会考虑问题的严重性来生成此 Marvis作。严重性和与基线的偏差越高,模型在观察到的持续时间内生成此作的置信度就越高。 |
1 天 |
无线作
| Marvis作 | 模型输入 | 特征触发条件 | 验证时间 |
|---|---|---|---|
| 离线 | 接入点统计 | 一个或多个接入点在本地运行或关闭(仅限云连接中断)。 该模型进行关联,以确定接入点出现故障的原因,即问题是否是由交换机、站点、区域或 ISP 中断造成的。 如果您希望在设备脱机时收到通知,请为设备启动或关闭事件配置基础架构警报,并指定阈值。 |
15 分钟 |
| 运行状况检查失败 | 接入点统计 | 自动恢复后,接入点或无线电仍反复无法运行。 |
30 天 |
| 不合规 | 接入点统计 | 一个接入点或多个接入点上的固件版本与站点设置下配置的版本合规性设置中的固件版本不同。 |
30 分钟 |
| 覆盖盲区 | 接入点和客户端统计信息 | 在高影响区域中,与接入点一个或多个接入点关联的所有客户端反复报告低 RSSI,导致SLE基线异常。 对于室外接入点或位于建筑物入口或出口的接入点,该模型会考虑问题的再次发生和边缘模式感知。 该模型会考虑异常的强度来生成 Marvis作,以指示影响用户的覆盖盲区问题。如果异常指数较强,则模型生成作的速度比异常指数较弱时更快。该模型检查多批数据,以识别接入点是否存在覆盖盲区问题。 |
7 天 |
| 容量不足 | 接入点和客户端统计信息 | 由反复和长时间的容量约束(非季节性)的接入点引起的基线异常。 该模型会考虑异常强度来生成 Marvis作,以指示影响用户的容量问题。如果异常指数较强,则模型生成作的速度比异常指数较弱时更快。该模型检查多批数据,以确定接入点是否存在容量问题。 |
7 天 |
| 检测到接入点环路 | 接入点事件 | 由于配置错误或配置不正确而导致的网络环路触发的接入点上的反射事件。 当接入点收到其通过相同或不同 VLAN 发送的数据包时,将发生反射事件。 反射事件几乎会立即在站点事件下生成,使您能够监视这些事件以进行基于原始统计信息的跟踪。 |
30 分钟 |
有线作
| Marvis作 | 模型输入 | 特征触发条件 | 验证时间 |
|---|---|---|---|
| 缺少 VLAN | 接入点端口统计信息 | 缺少 VLAN 的接入点报告的上行链路端口统计信息。 此作可关联来自两个或多个接入点的数据,以确定接入点端口上是否缺少客户端使用的活动接入点。如果整个站点上的任何客户端未使用某个 VLAN,则此关联有助于防止生成“ 缺少 VLAN ”作。 |
30 分钟 |
| 协商未完成 | 单个交换机端口统计信息 | 交换机端口上报告自动协商失败。 |
长达 60 分钟 |
| MTU 不匹配 | 单个交换机端口统计信息 | 任何交换机端口和连接的设备之间的 MTU 不匹配。报告的统计信息指示端口上存在错误。 模型会考虑生成 Marvis作的严重性和时间。MTU 不匹配越大,严重性就越大,从而导致 Marvis作的生成速度越快。 |
1 天 |
| 检测到环路 | 交换机端口事件 | 在拓扑中有意或无意地引入环路,导致快速和重复的生成树协议 (STP) 拓扑更改。 该模型使用 STP 拓扑更改事件作为输入要素,并考虑严重性和时间。每个时期STP拓扑变化的频率越高,检测速度越快。 或者,在较长时间内以较慢的速度引发事件的循环也会触发 Marvis作。 |
30 分钟 |
| 网络端口抖动 | 交换机端口事件(仅限中继端口) | 在配置为中继端口的端口上一致的端口并轨。 该模型会考虑频率和时间。端口抖动的频率越高,问题的严重性就越高。对于持续时间较长的慢速端口抖动,模型会在几个小时或几天内检测到端口抖动。 |
30 分钟 |
| CPU 使用率高 | 交换机机箱统计信息 | 在受监视的持续时间内,平均 CPU 利用率始终大于 90%。 该模型会考虑问题的频率和持续时间。显示受监视数据集中每个样本的平均 CPU 利用率较高的统计信息表明存在严重的用户影响问题。对于此类问题,模型会快速生成 Marvis作。 |
30 分钟 |
| 端口卡滞 | 交换机端口统计信息 | 接入端口上终端设备的流量模式突然偏差。 该模型不会为重复的季节性流量模式生成误报。它还会考虑类似端点之间的流量模式进行推理。 . 此 Marvis作是自我驱动的检测到 端口卡滞 问题时,端口会自动并轨,以再次启用端点。 仅当端点在自动端口退回后无法恢复运行,或者端口卡滞问题多次出现时,模型才会生成作。 . |
30 分钟 |
| 流量异常 | 交换机端口统计信息 | 广播和组播帧计数器与预测流量模式的任何偏差。 该模型每隔几天就对每台交换机或交换机端口上的流量模式进行基准评估。此作使用基于 长短期记忆 (LSTM) 的模型。 模型会根据问题的严重程度生成此 Marvis作。对于持续整个监控持续时间的强烈偏差,模型会快速生成作。模型可能需要更长的时间才能为较小的、持续时间较长的偏差生成作。 |
1 天 |
| 端口配置错误 | 上行链路交换机端口统计信息 | 已识别的上行链路端口之间的 MTU、VLAN、模式或双工不匹配。 该模型可识别边缘交换机-交换机连接上的差异。 |
60 分钟 |
WAN作
| Marvis作 | 模型输入 | 特征触发条件 | 验证时间 |
|---|---|---|---|
| MTU 不匹配 | WAN 边缘统计信息 | WAN 边缘端口与连接的设备之间的 MTU 不匹配。该模型检查报告的统计信息,这些统计信息指示端口上的某些错误。 模型会考虑生成此 Marvis作的严重性和时间。MTU 不匹配越大,严重性就越大,并且在特定持续时间内生成作。 |
30 分钟 |
| WAN 上行链路故障 | WAN Edge 上的上行链路端口 | WAN 端口统计信息中会报告高延迟、丢包、拥塞和网络服务故障(如 ARP 或 DHCP),表明基准行为发生了变化。 确定为高严重性问题的问题会比低严重性问题更早列出。 |
1 天 |
| VPN 路径关闭 | VPN 隧道或对等路径 | 以下任一路径中的对等路径关闭问题:
如果您的要求是在每个端口启动或关闭情况下获取警报,请订阅关键端口监控警报以获取原始警报。 确定为高严重性问题的问题会比低严重性问题更早列出。 |
1 小时 |
| 不合规 | SRX 系列防火墙 | 主分区和备份分区上的 Junos OS 版本存在差异。 |
30 分钟 |
其他 Marvis作
| Marvis作 | 模型输入 | 特征触发条件 | 验证时间 |
|---|---|---|---|
| 持续故障的客户端 | 有线和无线客户端 | 客户端持续无法进行身份验证并连接到网络。在监控的时间范围内,会持续观察到故障。 触发时间取决于站点,即客户端的数量和相关的并发故障。 |
60 分钟 |
| 接入端口抖动 | 交换机上的接入端口 | 对于配置为接入端口的端口,一致的端口启动或端口关闭事件。 该模型会考虑问题的频率和持续时间。端口抖动的频率越高,问题的严重性就越高。对于持续时间较长的慢速端口抖动,模型会在几个小时或几天内检测到端口抖动。 |
30 分钟 |