大数据定义智能运维
上QQ阅读APP看书,第一时间看更新

1.3 AIOps对于运维数据管理提出的需求与挑战

是时候来为AIOps正名了!

国内很多厂商在原有产品的基础上通过引入一两位算法工程师或是基于某个具体业务场景开展了预测分析就摇身一变成为了AIOps。这是对AIOps的以偏概全,其本质上尚处于算法运维(Algorithmic IT Operations)的范畴。业界普遍将关注点一下子集中到AI场景中,多少有些急功近利。国内所有对于AIOps的介绍与讲解几乎都没有涉及基础数据管理的层面。如图1-3所示,业界将AIOps根据能力层级划分成五个阶段。

图1-3 AIOps的五个能力阶段

注:摘自《企业级AIOps实施建议》白皮书。

如图1-4所示,也有人认为AIOps可以划分为四个发展阶段。

图1-4 业界总结的AIOps的四个发展阶段

开发运维一体化(DevOps),一方面要带着运维的思想开发,开发过程中除了注重需求功能外,还要(从代码质量、规范、安全性出发)考虑如何降低运维工作量,以及运维便利性,要使功能和运维二者兼得;另一方面运维要考虑如何在运维中发现解决问题的方法,并且通过程序变更或使用工具的方式(非重复的人力劳动来完成)来解决运维中的问题,从而使应用程序从开发到运维的流程顺畅,投入的人力成本总和最低。所以,DevOps应该是思想流程的融合,而非简单的自动化,也不完全是AIOps的必经阶段。

上述层级的划分为AIOps从点的应用到面的推广,再到最终形成智能运维的能力绘制了路线图。然而这些理论没有提及数据层面的问题,这是明显的不足。

AIOps平台的重要组成如图1-5所示。

图1-5 Dataops在AIOps阶段中处于重要位置

近期,Dataops理论的提出完善了AIOps的成长轨迹,图1-6中予以了说明。

图1-6 支撑AIOps的三大要素

如图1-7所示,AIOps的核心应该是通过对数据的分析挖掘来实现具有业务价值的结果,从而减轻运维工作人员的工作量,提升效率。AIOps的成功在于三点,一是基于明确的业务场景的算法分析模型以及持续优化的能力;二是有覆盖全部基础数据的具有高可靠性且统一管理的基础数据平台的支撑;三是有运维数据治理保障与基于运维数据资产管理的数据中台建设的支撑。

图1-7 支撑AIOps的三大要素

这里可以总结出数据是AI分析的重要基础,AIOps是继算法运维(Algorithmic IT Operations)后的智能运维能力的集大成者。如图1-8所示,通过数据完整描绘的运维画像将对AI形成强大的支撑能力。

图1-8 AIOps的实现思路

所以,没有高质量的全量数据的保证,AIOps也是巧妇难为无米之炊,而离开了数据平台的AIOps又是局限的,无法发挥数据应用的效率和效能。

例如,国内某银行开展容量预测,希望能较准确地预判特定高发交易时段对计算资源的需求。然而,服务商本身就是银行业务系统的开发商,所能得到的仅仅是业务系统中的历史交易记录数据,分析的结果误差始终达不到业务要求也无法实现业务价值。经过交流我们发现,包括新开卡的用户数据、新下载App的记录数据都无法获得,且历史交易数据不能满足一个完整的计算分析周期,这当然无计可施了。

数据缺失造成因变量输入不足,结果可想而知。这样的问题,不是AIOps能解决的。这也就体现出完整的运维画像的重要性。

AIOps首先依靠的是人工智能的分析应用能力,然后才是将人工智能应用到运维管理的运行领域形成AIOps理论体系,而人工智能则是将数据通过机器学习的手段以类人工的智能手段与方法实现的应用。由此可以得出的结论,对数据的管理和应用是走向AIOps的必由之路。图1-9给出了一个运维全维度视图并加以说明。

图1-9 IT运维的全维度总览

第一层级是工具层,就是通过各种监控、流程管控和自动化工具实现运维的基础管理,掌握整体的IT环境状态。

第二层级是平台层,通过运维数据的模型建设实现运维数据平台的统一管理并形成资产化,以此来支撑能够满足未来极大丰富业务场景AI分析的数据中台,并形成完整的数据供应链。

第三层级是能力层,通过AI分析实现资源优化、态势感知、业务洞察等各种能力的培养,实现智慧运营。

数据的支撑是AIOps最主要的基础。然而,要基于复杂的海量实时异构数据来开展类人工智能的机器学习训练也是一项挑战。各种监控工具、自动化工具和流程工具都在实时产生数据,将这些数据整合是困难和复杂的,其挑战在于:

● 能否实现清晰的数据架构和数据目录体系。

● 能否实现统一的数据标准和高可靠性的数据质量保障。

● 能否构建准确统一的数据标签(数据业务语义识别)。

● 能否实现无障碍的、高效共享的数据供应链。

● 能否建立完整统一的基础数据支撑平台。

这样的需求,为运维数据治理工作提供了方向,并且企业完成了这样的工作,也就实现了运维数据的资产化管理。

通过数据治理实现运维基础数据平台建设,是AIOps的必由之路。可以预见的是,随着分析能力的增强与提升,未来AIOps的业务场景将是极大丰富且非常多元化的,数据平台坚如磐石般地支持前端的分析创新,正是企业运维管理的重要保障。

基于AIOps的智能运维,体现的是多种运维技术的融合,融合的重点在于数据、策略、流程、执行和可视化的联动,其中:

● 数据是智能运维的源泉和基石。

● 策略是分析大脑。

● 流程是联动整个平台的中枢。

● 执行是以自动化手段为抓手。

● 可视化将整个平台予以聚集并统一直观展示。

数据平台就是智慧运维的大脑!这是某大型银行运维负责人员给出的关于运维数据平台的定位。

那么,应该如何构建一个高效的、可以支撑未来多变的AIOps应用的数据平台?

本书试图通过对于运维数据治理的差异化分析提炼出运维数据管理的特点和方法,并通过对运维管理数据开展治理的最佳实践介绍来构建一个统一的运维数据管理平台,从而为AIOps提供数据支撑,希望能为客户的智慧运维管理带来全新的理念和思路!