自动化|手工运维是如何向智能运维演变的?-薪享宏福

当代社会的生产生活,许多方面都依赖于大型、复杂的软硬件系统,包括互联网、高性能计算、电信、金融、电力网络、物联网、医疗网络和设备等。这些系统的用户都需要良好的用户体验。因此,这些复杂系统的部署、运行和维护都需要专业的运维人员,以应对各种突发事件,确保系统安全、可靠地运行。由于各类突发事件会产生海量数据,因此,智能运维从本质上可以被视作一个大数据分析的具体场景。
自动化|手工运维是如何向智能运维演变的?-薪享宏福
文章插图

运维部门是最早开始通过实时监控来掌握系统的运行状况,从而保证系统的服务质量和用户体验,达到对异常事件及时进行分析与处理的目的。追溯运维发展历史,手工运维是最初的形态,费时耗力,需要众多的运维人员。随后,大量自动化脚本的出现实现了运维的自动化,运维效率得到很好地提升。但是随着系统规模的日益增长,自动化运维开始无法满足业界需求。

得益于大数据和人工智能,今天的运维方式开始迈向智能化阶段,智能运维开始被越来越多的企业所关注。公司和组织通过集中监控平台采集系统的各项运行状态和执行逻辑信息,例如网络流量、服务日志等,进而实现对系统运行状态的全面感知。随着系统规模的增长,运维数据也出现爆炸式增长,每天有上百十亿条的监控数据、日志等产生,给运维带来了种种困难与挑战,并促使智能运维技术不断发展。

在手工运维时期,运维人员也就是通常意义上的系统管理员或网管,运维工作大部分是手工完成的。运维人员负责的工作包括监控产品运行状态、产品性能指标、产品上线与变更服务等。而这也导致运维人员的数量以及单个运维人员的工作量都是随着产品的个数或者产品服务的用户规模呈线性增长的。这样的运维工作不但消耗了大量的人力资源,而且大部分运维工作都是低效重复,不能满足互联网需求与规模日新月异的发展。

伴随着技术的更新,运维人员通过自动化的脚本来实现频繁出现的重复性运维工作,同时还可以监控整个系统,并产生大量的监控日志。这些脚本能够被重复调用和自动触发,并在一定程度上防止人工的误操作,这就是自动化运维。它能够极大地减少人力成本,提高运维的效率。自动化运维可以认为是一种基于行业领域知识和运维场景领域知识的专家系统。

【 自动化|手工运维是如何向智能运维演变的?-薪享宏福】随着时代的进步,运维人员与产品开发人员被区分开来,并演化为单独的运维部门。这种模式使得不同公司能够分享自动化运维的工具和想法,互相借鉴,从而极大地推动了运维的发展。