第1章 总论 Chapter One
1.1 运维管理的现状
当今时代正在经历由于新技术而引发的颠覆性变革。5G、物联网、云计算与大数据、人工智能和区块链等新技术的诞生或发展,都为人类对这个世界的认知和运转带来了新的角度和新的模式。
但对于系统运维的从业者来说,新技术的降临却是富有挑战的。从前十年的虚拟化,到今天的混合云,容器技术、微服务架构,还有就是如火如荼的数据中台、技术中台、业务中台等超前的技术理念所带来的架构变化,不断发展的技术引领着业务应用创新和业务创新,为系统运维的工作带来了空前的现实挑战和压力。
传统的运维技术手段已经不能满足今天超大集群环境的要求,而系统故障带来的损失也是灾难性的,成为运维发展史上一个又一个血的教训。这种灾难的成本也由于对于IT系统依赖程度的加深而成几何级数的增长。
图1-1列举了历史上重大运维事故的惨痛教训。
图1-1 运维历史大事故时间轴
试想从UNIX小型机时代到今天基于云架构的hadoop超大服务器集群,系统运维的目标也正在从支撑稳定运行发展到支撑每秒超过30万笔交易的高效运行,这必将呼唤新一代运维技术的诞生和发展。从早期的网管软件,到IT基础架构库(Information Technology Infrastructure Library,ITIL)理论体系的形成,再到日志管理、NPM、APM等监控工具的广泛应用,运维管理已经从原始数据层级发展到了满足管理人员洞察秋毫的需求。随之也产生了ITIL、ITSS、ITOM、ITOA、ITSM、DevOps以及2017年由权威机构Gartner总结的AIOps等运维理论。运维管理的关注点也从最早的对设备状态的监控发展到对事件的系统化认知,进而提升到高效服务的高度。
技术与理论的发展从来都伴随着市场的需求。ITIL理论从业务管理、服务管理、ICT基础架构管理、IT服务管理规划与实施、应用管理和安全管理六个模块对运维的标准化管理体系进行了概括和总结,并明确指出服务管理是其中最核心的模块。信息技术服务标准(Information Technology Service Standards,ITSS)是一套成体系和综合配套的信息技术服务标准库,它全面规范了IT服务产品及其组成要素,可用于指导实施标准化和可信赖的IT服务。ITSS将信息化服务的组成要素分为IT服务人员(People)、流程(Process)、技术(Technology)和资源(Resource),并由此形成了PPTR理论体系。从ITOM到ITOA是IT运维从管理到分析的渐变过程,它从实际需求的角度证明了由传统的简单监控管理到应用数据分析来开展运维业务洞察的技术方向。
当今主流的IT运维管理工具可以概括为如下三大类:
1)监控IT环境运行状况的监控工具,包括网络监控、应用监控、流量监控等。这类系统相当于运维管理人员的眼睛,可以帮助他们掌握运行状况。
2)自动化工具,包括自动执行系统的安装、发布和配置等。这类工具以提高效率为主,相当于运维人员的智能机械手。
3)流程类工具,用于确保各类事务流程化、规范化以及对服务质量的管理。
那么,什么才是运维管理的“大脑”呢?
这就好比人体是由大脑、神经、骨骼和血液等共同组成的有机整体,大脑就是总指挥。如果把血液比作数据,那么神经网络就是对整体躯干的监控,大脑就是所有数据和信息反映汇总与决策的平台。要发挥大脑的价值,首先运维系统必须是一个有机躯体。
孤立的系统就是信息孤岛,烟囱式的系统建设结果是数据碎片化、监控单一化和分析手段的局限化。这样的运维管理在整体效果上必然会导致人工运维费用居高不下,系统处理与问题判断非常复杂且效率低下,后台维护成本高昂,由于知识积累与传承困难而造成的培训成本趋高等现象的发生。因此,运维数据价值没有被挖掘也无法成为资产管理的基础。
例如,传统的ITIL运维管理流程已经在许多组织中得以推广应用,然而当DevOps团队开始使用Jira(一种项目与事务跟踪的工具)来记录缺陷和功能性的改进时,ITIL就受到了一定的挑战。因为在使用APM时,IT运营与安全团队是无法通过各种本地或远程事件来捕获或识别多种威胁的。因此,就需要在应用程序、服务或业务的价值链中确定所有有效的结果性指标,并制订出一个方案来汇集这些数据,以便通过这些数据来掌控全局。
这就是数据的力量与价值所在。