什么是 NRE?

什么是 NRE?

网络可靠性工程师 (NRE) 是一个 IT 运维角色,负责采用工程方法来衡量网络的可靠性并自动实施可靠性措施,确保与服务级别目标、协议以及 IT 组织和业务部门的目标保持一致。NRE 的实践称为网络可靠性工程。

网络可靠性工程师 (NRE) 的职责是什么?

网络自动化技术的激增开阔了网络运营商的眼界,但对工具的关注通常导致网络中的自动化工作流程增加。NRE 注重工程的方式则与传统方法完全相反。它将软件工程师的任务(构建、测试、部署和操作)和现场可靠性工程师 (SRE) 的任务(实施 DevOps)结合在一起。NRE 履行 DevNetOps 原则和行为以构建网络管道。

尽管 NRE 的一些工作涉及操作任务,如执行升级、审计、更改请求和处理事件,但他们的重点是:

  • DevNetOps 管道上构建和部署网络
  • 实现网络动态处理的自动化
  • 集成系统
  • 实现工作流程自动化
  • 处理繁琐的任务
  • 通过主动测试自动进行故障排除
  • 通过自动化响应提供工程可靠性
  • 与错误预算和服务级别目标保持一致

网络可靠性工程行为

行为

说明

编码化

从获取网络软件和硬件系统开始(通常称为第 0 天),NRE 像软件开发人员一样,将网络软件构件、机密和配置编入源代码存储库。

自动化

通过使用 DevNetOps 管道,NRE 实现测试和可复制的版本化部署集成自动化。除了首次部署和更新,NRE 还使用此管道设计生产中可靠性、规模、效率优化、为其消费者动态配置网络资源,以及系统集成。

测试

通过自动化、分段、压力测试和混沌工程,NRE 确保交付件可靠,足以满足服务级别目标和协议。

监控

NRE 通过为异常和在统计上有意义的事件触发自动响应和警报,手动和自动监控服务级别指标。收集并分析日志和遥测数据以获得效率见解,规划容量需求,并实现弹性云网络基础架构上的容量自动化。

衡量

最后,NRE 文化重视真实和透明,采用了许多指标来衡量 NRE 实现可靠性目标的有效性,如 MTBF 和 MTTR。

网络可靠性工程的优势

可靠性是 NRE 的首要价值!尽管技术发展的速度和业务速度是重要经济要素,但如果没有可靠的基础也是空谈。由于 DevNetOps 原则重视通过小的渐进式变革实现的演进和速度,革新架构的速度和敏捷性通常会带来副作用。

NRE 充分了解网络在压力下是如何降低性能和造成中断的,这就有机会实现事件响应自动化并记录事件响应。因此鼓励采取主动方法来避免生产中断。

在单独的资源级别,NRE 报告显示,用户对部署的担心更少,工作满意度更高。

总的来说,NRE 实现了操作和管理至简。在网络操作中,有很多变量要控制、保护和审计,因而导致复杂性大大提高。NRE 通过精心编排真实信息源和自动响应来实现自我驱动型网络,从而克服了这种复杂性。

NRE、SDN 和 NFV 之间有何关系?

您可以向网络硬件和软件系统相同地应用网络可靠性工程。对纯软件定义网络 (SDN)网络功能虚拟化 (NFV) 或云端的 SDN)应用 NRE 更容易进行模拟和测试 — 无需网络硬件实验室或虚拟实验室。SDN 硬件控制对于 NRE 来说也更容易实施,因为 SDN 系统在其给定域中自动化和抽象化整个网络架构的控制和配置,由此使 NRE 能避免对 SDN 系统做无用功。

由于不存在完美无缺的系统,因此 NRE 的工作永无止境。与 SRE 和 DevOps 文化类似,NRE 和 DevNetOps 文化允许出现故障,因为故障会促进快速修复,而且有助于积累经验教训。持续改进或 kaizen(表示“好的变化”的日语单词)并非关乎保持平衡,而是关乎恢复平衡。如果一开始就不允许失败,那么就无法恢复。 1 多个领域的研究表明,此方法会带来更好的结果。因此,NRE 以演进为目标,而非苛求完美。在工程和操作之间的分隔时间,NRE 了解故障、记录经验教训,并持续改进工具和自动化流程。