第2章 需求分析 Chapter Two
2.1 企业数据治理概论
在介绍运维数据治理之前,我们首先需要对企业面向业务的数据治理有一定的理解。
应该承认,国内企业在大数据技术成熟并得到广泛应用之前并不是很重视数据治理。国内有太多企业匆忙之间建设了数据平台然后又发现报表不准、数据质量不高或是业务场景模糊,从而造成项目失败或是没有达到预期效果的案例。在付出了高昂的学费代价后,数据治理工作的意义与作用才逐渐被企业理解并接受。
数据治理工作在今天已经被企业认为是一项必要的基础工作,数据资产化也已经在广大客户中得到共识,并被提升到企业实现数字化转型的重要基础与保障的高度。即使是对正在铺天盖地广泛宣讲的数据中台技术而言,数据资产管理也是其核心组件。
如图2-1所示,企业在开展数据平台建设的过程中,必须首先通过数据治理摸清“家底”,梳理清楚企业数据架构和数据目录体系,并通过数据标准管理和数据质量管理来保证进入平台数据的高可靠性。然后,构建企业核心的数据主题域建设和业务数据模型,由此完成企业的数据资产管理,并通过数据模型实现全局的数据标准的统一。最后,构建数据集市或通过数据中台封装后以DATA API的方式共享给业务部门并开展自助式分析,形成快速决策和业务创新的能力。
图2-1 数据治理支撑数据平台建设
企业数据治理并不是崭新的技术,相反,由于长时间的历史积累,在传统企业数据治理领域,除数据资产价值评估尚处于探索阶段外,企业数据治理从理论到最佳实践,从系统平台到组织架构设计,以及岗位职责的制定和制度管理都是趋于成熟且比较清晰完善的。
早在1988年成立的国际数据管理协会(The Global Data Management Community,DAMA)对企业数据治理理论的研究已经持续了超过30年。DAMA致力于企业信息和数据管理的研究、实践及相关知识体系的整理,在数据管理方面有极为深厚的知识沉淀和丰富的经验。
数据治理由宏观层面和微观层面组成。宏观层面就是以企业数据架构为核心的数据管理体系建设,微观层面其实就是对数据开展手术刀式的分析与整理。
其中,如图2-2所示的数据属性分析是数据梳理最重要的方法之一。
图2-2 数据属性分析
数据架构是识别企业数据需求,并以这些数据需求为出发点设计和维护的主蓝图。如图2-3所示,从企业数据治理的宏观层面来说,企业数据架构以企业数据架构为龙头,以面向业务支撑为方向,由数据标准管理、数据模型、数据流等要素组成。
图2-3 企业数据架构的组成
作为连接企业架构中其他三个架构(业务架构、应用架构、技术架构)的关键纽带,数据架构解决了业务与数据间的映射,规范了应用架构中的数据集成关系,指导了技术架构的技术选型。
数据架构对于企业而言具有四大作用:
● 从不同层次不同维度描述数据,为数据管理奠定基础。
● 定义数据状态,表达战略数据需求。
● 促进企业数据标准化,指导企业数据集成。
● 规范企业数据流转,拉通数据生命周期。
现在数据中台建设已经成为企业数字化转型的必选件,数据架构需要从以模型为导向逐步向以服务为导向过渡。传统数据架构更重视内部信息的建模和梳理,为信息化打下了很好的基础。未来数据建模依然是企业数据架构的基础,这点毋庸置疑,但是为了使数据架构真正落地,为数据消费端服务,未来在进行数据建模的同时需要考虑数据服务需求,提前确定服务水平协议(Service Level Agreement,SLA),这将会成为未来企业数据架构规划的重点。伴随未来DataOps等场景的出现,数据架构会越来越走向最终的数据消费端,这部分内容会有更多的变化和新发现。
(图片文字摘自龚菲DG数据治理,2019年7月18日)
就数据治理技术层面来说,主要包括元数据管理、数据标准管理、数据质量管理、主数据管理和数据模型管理五个基础部分。
(1)元数据管理。
传统数据治理将元数据(Metadata)定义为“数据的数据”,是“描述数据属性的数据”。基于元数据管理形成了企业数据资产体系。元数据管理是企业开展数据治理工作的核心,由元数据生成的数据地图、数据目录和数据血缘等是数据治理成果重要而直观的展现。
元数据可以用于建立、管理、维护整个数据治理平台的资源库。元数据管理是数据治理平台中的关键构件,贯穿于数据治理平台各功能建立与执行的整个过程。
元数据管理的独特功能亮点在于用户并不需要对分散在不同系统、不同数据库或存储位置的数据实现集中存放管理,而仅仅通过元数据的抽取与分析就可以得到企业的全量数据视图,形成企业的数据目录体系,这是元数据管理的价值所在。所以,著名的Informatica公司将元数据管理定义为“一种新的操作系统”。
(摘自“无数据,不AI:全面的数据管理是企业AI成功的关键”——Informatica数据管理,2019年7月8日)
元数据管理模块可以实现数据资产的盘点,通过系统自动采集可将项目过程中产生的逻辑/物理数据模型、报表设计、ETL[Extract(提取)、Transform(转换)、Load(加载)]加工等内容统一纳入元数据管理模块进行管理,实现数据资产的地图化展示,并通过解析数据流的加工关系实现影响和血缘分析,从而支持元数据进行统一的版本管理等。在完成企业数据结构和技术元数据管理的初始基线梳理后,就能够通过元数据管理模块来维护数据结构基线及变更过程;还可以建立元数据管理流程,并通过管理平台落地实施。
元数据地图是以图形的方式、分层次地展现各类系统中的数据构成,包括主题、表、字段等逐级钻取,以及各系统中的数据流图,用户可在同一个界面中直观地去查看不同层次的数据构成和流转情况。元数据地图可使用户快速地了解各系统中数据的流动路径,快速定位某一数据实体在系统中所处的位置,以及准确评估某一数据实体发生异常时对全局的影响。
元数据是“所有系统、文档和流程中包含的所有数据的语境”,换句话说,如果没有元数据,组织IT系统中收集和存储的所有数据都会失去意义,也就没有业务价值。
(2)数据标准管理。
数据标准管理是指企业针对数据规范所开展的工作,统一的数据标准和规范是进行数据治理及应用的核心。数据标准化是一个完整的系统工程,包含规划、制订、评审、执行与发布、维护与监控、管理控制等多个环节,目标是构建“有标可依、依标可行、行而有效”的、可持续发展的标准体系。
数据字典(Data Dictionary,DD)就是一种比较典型的数据标准。数据字典是软件工程中用来记存应用系统中数据定义、结构和相互关联的概念,随着系统的复杂化和从建设到运行的全程管理的需要,数据字典逐渐发展成元库(Repository)。我们将IRP创建的、贯穿信息资源规划到应用系统开发全过程的元库称作信息资源元库(Information Resource Repository,IRR)。
一般的数据标准中会包括标准主题定义文档、标准信息项文档、标准代码文档三个文档。其中,标准主题定义文档:主要是记录数据标准的定义、分类,用于规范和识别数据的主题归属;标准信息项文档:记录数据主题的信息项业务属性(分类、业务含义、业务逻辑)和技术属性(类型、长度、默认规则);标准代码文档:记录信息项固定码值的编码、分类、使用规则等。标准信息项文档是数据标准的核心。内容包括分类、业务描述和技术描述,一般由信息大类、信息小类、信息项、信息项描述、信息类别、长度共六项组成。当然这些内容也可以调整,例如可以将信息大类和小类进行合并,或者拆除更多层级。
信息大、小类是对信息项的常规分类,例如,客户信息大类包括基本信息、联系信息、关联信息、财务信息、风险信息、评价信息、往来信息七大类;信息小类包括客户编号、名称、证件、地址、评级信息、模型评分、等级、开办业务等。
信息项是用来描述一个事物的最基本元素。表示一个事物的识别、限制、数量、分类、状态,或事物间的关系。例如,客户信息的名称、年龄、性别等。
信息项描述是描写或者规范信息项的具体业务描述及界定。
信息类别是根据业务需求,定义相应的信息项在数据库中所需要的技术格式。例如,编号、标志、代码、金额、日期、数值、文本等。
长度是信息项的数据长度,可供各系统建设参考使用。
(3)数据质量管理。
数据质量管理是为了提高数据的完整性、准确性、一致性、及时性和规范性,对数据的采集、加工、存储、应用等生命周期中每个阶段可能出现的质量问题进行主动识别并修正的过程。只有数据质量得到了保障,才能不断提升数据分析的利用质效和管理水平,所以说数据质量管理是整个数据管理工作的核心,贯穿整个过程。
尽管由于多方面原因,给信息系统的数据质量带来一定的负面影响,但仍可以采取一定的措施来提升信息系统的数据质量。近来随着信息化的深入,数据质量方面的工作也由原来的对数据质量的检查和纠错发展到建立全面数据质量管理(Total Data Quality Management,TDQM)上来。
为了改进和提高数据质量,必须从产生数据的源头抓起,从管理入手,对数据运行的全过程进行监控,密切关注数据质量的发展和变化,深入研究数据质量问题所遵循的客观规律,分析其产生的机理,探索科学有效的控制方法和改进措施;必须深刻认识数据质量问题的普遍性和特殊性,分领域、分阶段、有计划、有步骤地深入研究提高数据质量的理论和方法;必须强化全面数据质量管理的思想观念,把这一观念渗透到数据生命周期的全过程,用这一观念指导参与信息系统建设的每一位专业与非专业人员,为加强全面数据质量管理,以保证数据的精确性、完备性、一致性、及时性、唯一性、有效性,提供坚实的理论基础和技术支持。数据质量问题的产生,既有客观因素,又有主观因素。在实践中,必须建立良好的数据质量管理系统,克服大量主观因素的干扰,从源头上控制数据质量问题的产生和蔓延。信息系统是数据运行的依托和支撑,加强全面数据质量管理,必须抓好信息系统的建设、使用和管理。
实施全面数据质量管理,法规体系是根本保障。在信息系统建设的初期,就应当从法律、规章、标准等各个层次建立完备的法规体系,建立完善、科学的数据质量标准体系、评价体系、检查评估制度。只有这样,才能形成通用、共享、优质、高效的数据运行系统。健全的组织机构是实施全面数据质量管理的基础。应设置相应的组织机构,以不断完善数据质量管理系统,确定数据质量管理的整体目标和指标,制订切实可行的实现数据质量目标和指标的策略、方案,对数据质量及其管理过程进行检查、评估等。建立完备的数据质量管理法规体系和健全的数据质量管理组织机构,促进信息系统内部硬软件与人的有机结合,这样,就可以为加强全面数据质量管理,建立可靠的运行系统和完善的运行机制。美国在这方面走在了前面,美国政府通过法律、法规的形式对数据质量问题加以规范,同时相应的研究机构也开展了对全面数据质量管理的方法与技术的研究,这方面比较有代表性的是美国麻省理工学院(MIT)和美国国防部。
数据质量管理是一个持续、艰苦、逐步改善的过程,需要企业各部门全员和技术服务商都能够为数据质量的提升提供贡献。从业务人员对每个单据的录入,到数据开发人员对每行代码的编写,再到网络线路的稳定性等都会直接影响数据质量。需要将数据质量管理规范渗入到每个业务流程和每个技术服务合同中。
对全面数据质量管理过程的评估是实现数据质量管理过程不断优化,使数据质量持续改进的关键一步。科学地制订数据质量评价指标体系,适时对数据质量进行评估。通过对数据质量问题发生的时间、地点、频率和种类进行统计分析,回答“一些重要的错误发生在什么地方”“有无某类错误比其他错误更频繁”“为了高效地改进数据质量,应该主要在哪些地方下功夫”等关键问题,对一些重要错误进行定位,对某些频繁发生的错误进行考察,对制约质量提高的管理漏洞进行分析,从而掌握现行数据质量管理过程和方法的优缺点,研究改进措施,实现管理过程的不断优化。
在信息化建设过程中,应建立科学有效的数据质量管理体系,对信息系统的数据质量实施全程、全域和全员管理,将数据质量管理以制度化、规范化的方式落实到数据生成、传递和使用的各个过程、方面和人员之中,充分发挥信息系统在企业信息化进程中的基础性的作用。
(4)主数据管理。
主数据管理(Master Data Management,MDM)可以保证系统协调和重用通用、正确的业务数据(主数据),使业务数据在整个企业范围内保持一致性(consistent)、完整性(complete)、可控性(controlled)。主数据管理通过一组约束和方法来保证一个企业内相关主题域和系统之间主数据的实时性、完整性和有效性。将主数据从各个操作及分析性应用系统中分离出来,使其成为一个集中的、独立于企业各种其他应用的核心资源,从而使企业的核心信息得以重用并确保各个应用间核心数据的一致性。
主数据管理的关键就是“管理”。主数据管理不会创建新的数据或新的数据纵向结构。相反,它提供了一种方法,使企业能够有效地管理存储在分布系统中的数据。主数据管理使用现有的系统,它从这些系统中获取最新信息,并提供了先进的技术和流程,用于自动、准确、及时地分发和分析整个企业中的数据,并对数据进行验证。
主数据管理解决方案具有以下特性:
● 在企业层面上整合了现有纵向结构中的客户信息以及其他知识和深层次信息。
● 共享所有系统中的数据,使之成为一系列以客户为中心的业务流程和服务。
● 实现对于客户、产品和供应商都通用的主数据形式,加速数据输入、检索和分析。
● 支持数据的多用户管理,包括限制某些用户添加、更新或查看维护主数据的流程的能力。
● 集成产品信息管理、客户关系管理、客户数据集成以及可对主数据进行分析的其他解决方案。
由于和主数据管理关联的方法及流程的运行与企业的业务流系统及其他系统彼此独立,因此这些方法和流程不仅能检索、更新和分发数据,还能满足主数据的各种用途。主数据管理通过将数据与操作应用程序实时集成来支持操作用途。主数据管理还通过使用经过授权的流程来创建、定义和同步主数据以支持协作用途。最后,主数据管理通过事件管理工具事先将主数据推送至分析应用程序来支持分析用途。
(5)数据模型管理。
数据模型是企业数据治理的高阶应用。
数据模型(Data Model)是数据特征的抽象。数据(Data)是描述事物的符号记录,模型(Model)则是现实世界的抽象。数据模型从抽象层次上描述了系统的静态特征、动态行为和约束条件。数据模型包括概念模型、逻辑模型和物理模型,是对企业全量业务数据的高度概括和准确表达。通过数据模型帮助企业实现数据架构的整体设计,清晰地展现了企业数据资产和数据目录体系,完整体现出了数据对业务和对实体关系的客观表达,并为企业开展统一化的数据系统建设提供平台级的保障。
如图2-4所示的一个完整的数据模型基本可以涵盖数据所能表达的全部信息,也能体现出数据对于实体和业务的准确反映。
图2-4 航空公司业务数据模型示例
而从IT技术角度解读数据模型则主要分为概念模型、逻辑模型和物理模型,三者之间是逐步展开、逐步落地的关系。图2-5是基于FEA企业架构理论的数据模型说明。
图2-5 FEA企业架构理论
概念数据模型:概念数据模型是能表示现实世界的概念化结构,通过概念实体及关系,从业务的角度对信息进行高层级的描述。概念模型能够让业务明白数据有什么,帮助数据与业务沟通和相互理解。
逻辑数据模型:逻辑数据模型在概念数据模型的基础上定义了各个实体的属性,是对概念模型的进一步细化,包括所有的实体、实体的属性、实体之间的关系以及每个实体的主键、实体的外键等。逻辑模型能够帮助数据与应用沟通和相互理解。
物理数据模型:物理数据模型是在逻辑数据模型的基础上,综合考虑各种存储条件的限制,将逻辑数据模型中的实体、属性以及关系转换成的物理元素(表、字段、索引等)。物理数据模型能够帮助数据与技术沟通,明确数据到底该怎么建、存储的位置等。需要注意的是,物理模型虽然属于数据架构的组件,但却不是数据架构的产物。
概念模型与逻辑模型的关系如图2-6所示。
图2-6 概念模型与逻辑模型的关系
数据建模是现代数据治理的基础。数据建模使组织能够通过基于行业标准和最佳实践的直观式图形化工具来发现、设计并部署企业数据,使其可视化、标准化。除此之外,通过集成的概念、逻辑和物理模型将业务和数据资产的技术视图相结合,从而为整个企业的数据利益相关者之间的协作提供详细的基础。数据建模可以打破技术和组织孤岛,部署可重复使用的设计,进而分析标准并管理数据建模和定义流程,在提高数据质量和一致性的同时降低分析、开发和维护的成本。由此可见,数据建模是利用高质量数据源设计和部署新的关系型数据库和支持应用程序开发的最佳方法。
我国已经有众多大型企业开展了数据模型建设,包括三峡集团、建设银行、国家电网等。国家电网公共数据模型(SG-CIM)如图2-7所示,自2012年开始,国家电网在全业务数据中心建设中,通过企业统一数据模型建设实现了各网省公司数据平台的基线版本的统一,并将数据标准贯穿至模型中实现全局性的数据标准管理。
图2-7 国家电网公共数据模型(SG-CIM)概览
在金融行业也已经有了比较成熟的金融业务概念模型。下图2-8是金融行业概念模型,该模型将金融行业的所有业务数据高度概括为九大概念,也是业界公认的金融(银行)数据模型规范之一。
图2-8 金融行业概念模型
有了高屋建瓴的概念模型,企业仅需要按照图2-9所示的阶段在逻辑模型和物理模型中予以落地执行就可以了。
图2-9 从概念模型到逻辑模型到物理模型的落地
如果企业的业务领域没有成熟的概念模型,企业在开展数据治理的工作中可以参考已有的模型成果,也可以通过信息资源规划(IRP)来构建自己的数据模型。
作为企业数据治理的高阶成果,全业务数据模型具有举足轻重的地位。然而由于认知和投入的原因,目前企业数据模型建设除在特大型企业和金融行业中得到部分应用外,更多的行业领域尚存较大空白。