第1章 发掘数据金矿的工具:BI与DW、OLAP、DM
本章导读:
“工欲善其事,必先利其器”。信息技术在商业领域应用的卓越成效在经过近20年的信息化建设已经初步显现。企业通过MIS(管理信息系统)快速收集和处理商业信息,通过ERP(企业资源计划系统)准确监控信息流,从而对企业经营的各个方面进行管理。这些系统除了本身的应用外,还积累了大量的数据,如来自业务系统的订单、库存、交易账目、客户和供应商资料,来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据,这是一笔宝贵的财富。信息系统应该具备把这些庞大的数据转化为知识,进而辅助企业经营决策,甚至自动生成商业决策的能力,这就是商业智能。信息系统正在经历着“MIS→ERP→BI”的演变过程。本章将对于商业智能涉及到的相关技术,如数据仓库(DW)、数据挖掘(DM)等进行概要地分析,同时从理论上明确商业智能在企业经营决策过程中的价值发挥原理。
本章先简单地说明企业经营管理活动对商业智能的需求,从而明确实施BI的原因,解决Why的问题;再阐述商业智能的技术构成,大概了解如何实现商业智能,解决What和How的问题;最后列举一些实际部署的部署商业智能项目结果,解决What Effect的问题。
1.1 企业经营管理活动对商业智能的需求
信息系统在企业管理中的应用不仅随着管理理念的更新而发展,还在很大程度上依赖于企业商业信息的存储量。随着社会节奏的加快,企业信息积累越来越多,而商业知识的需求却得不到满足,于是就提出了商业智能的概念。这一节将对商业智能系统应用的深层原因进行探讨。
1.1.1 企业经营活动面临的挑战
企业经营活动包括采购、生产、销售、商贸磋商、价格比较、经营决策、营销策略、推销促销、公关宣传、售前/售后服务、客户关系和咨询服务等。这些活动的背后实际上有3种“流”在支持着整个企业的运转:物流、资金流和信息流。
“物流”是从原材料和零配件到成品整个物资流通的过程。它将运输、仓储、加工、整理和配送等整个物资流通过程通过信息有机结合,形成完整的供应和需求链。
“资金流”是资金在企业内部和企业之间的流动过程。它包括融资、应收账款和应付账款的管理等,涉及财务的各个方面。
“信息流”是企业管理的各个环节产生的信息的规律性流动。如业务运作过程产生的单据及其处理过程;经营管理过程中的成本、收入、利润报表及其相互关联;战略决策规划过程中的产品结构及市场定位信息;企业的经营目标和策略信息等。
实际上,每个时期的企业经营活动过程都可以抽象出这“三流”。只不过传统企业管理由于企业规模和经营过程产生的信息量等还不是十分庞大,所以对这“三流”没有进行深入的研究和给予更多的重视。然而,信息时代的企业经营活动在这3个方面却面临着两个很大的挑战。
1.商务工具的变迁
技术总是不断地影响着商务模式。自从人类社会有商业活动以来,采用新进有效的商业工具往往能在竞争中先发制人。这里不讨论生产工具和交通工具,只着眼于和商业智能关联的信息工具来看现代企业在这方面面临的这一挑战。
每一次科学技术的进步,总是会在很短的时间内在商业领域得到普遍的应用。图1-1的上面部分展示了从电报到互联网在不同阶段有代表性的商业工具,伴随着商业工具的变迁,人们处理信息的能力在工具的帮助下变得越来越强大,信息量的增长也越来越快。在此图的下半部分是与商业工具的发展相对应的信息量的增长。可以说,对商业活动影响最大的工具是计算机在商业领域的应用,它标志着商业活动真正进入信息化的时代,这时候的信息处理方式以数据库为主。现阶段企业的很多商业活动的信息化都还属于这个阶段。互联网在商业活动中的应用不仅从某种程度上改变了传统的商业模式,在信息增长和信息处理方式上也发生了前所未有的变化。在这个阶段,伴随着网络的使用,商业信息呈爆炸状增长,企业从以前使用的系统中继承了相当多的数据,如从ERP中继承的生产运作相关信息、从CRM中继承的客户信息和从HR系统中继承得到的员工信息等,这些信息只有共同作用才能发挥其效益,故信息处理方式以数据仓库和数据集市等为主。
图1-1 商业工具的发展及其相对应的信息量
正是由于信息工具的变化和信息量的不断增长,人们针对这些不同时期的不同信息类型一直在探索管理好它们的方法,也伴随着产生了一些工具。在使用电报、电话和传真等商业工具的阶段,信息量还不是很庞大,人们自身的能力还可以处理它们,这段时间出现的都是手工处理信息的方法,如文件的编目和文件系统的管理等。计算机的商业应用出现后,信息处理的方式发生了革命性的变化,先是商业单据的电子化,即EDI(电子数据交换),然后是MIS(管理信息系统)的广泛应用。随着信息的持续增长,一些新的商业信息处理方式被提了出来,如企业资源规划、供应链管理、客户关系管理和人力资源管理等,对应的商业信息处理工具分别有ERP、SCM、CRM和HR等。这一过程如图1-2所示。
图1-2 信息管理工具的演变
在这个变化的时代,能适应变化并趋利避害者才能在竞争中取得胜利。对于企业经营管理来说,这既是机遇又是威胁。新的商业工具在成本和效率等方面都有优势,如何使新的商业工具得到使用并使企业快速适应使用这种工具的环境,扬其长避其短,这是企业经营活动面临的一个重要挑战。
2.信息囚笼、信息孤岛和信息对抗的问题
企业里有大量的分布于各个计算机系统的数据,人们使用信息处理工具的目的就是希望把这些数据进行整理和分析,找到其中有价值的信息,为企业的经营决策提供依据。但是实际情况往往和这个愿望大相径庭,在现有的信息传统中,存在着信息化系统与传统业务系统脱节、信息化各子系统脱节、信息化整合传统资源脱节的“三脱节”现象,这直接导致了企业信息囚笼、信息孤岛和信息对抗的问题。
在信息化过程中,企业积累了大量的数据,包括生产运作、客户、产品和销售等方面,但这些数据却被深埋在单独的计算机系统中未加以或难以运用,其潜力也不能发挥出来。而另一方面,企业在维护这些计算机设备和数据库系统上进行了可观的投资,很多管理者甚至不无感慨地说:“在信息系统上的投资就像一个黑洞,花了很多钱,却不见成效”。不仅丰富的数据被深埋着,企业自身好像也被这些系统套着,这就是信息的囚笼现象。
系统间的相互交互、兼容和集成问题是另一个重要的问题。信息化有一个从初级阶段到中级阶段,再到高级阶段的发展过程。在计算机应用的初级阶段,人们容易从文字处理、报表打印开始使用计算机,进而围绕一项项业务工作,开发或引进一个个应用系统。这些分散开发或引进的应用系统,一般不会统一考虑数据标准或信息共享问题,如某企业财务管理用“管家婆”,生产运作用“用友”,销售管理用“金蝶”,客户关系管理和人力资源管理自己开发,这样,各个系统之间的数据很难进行交换。信息系统往往被其所属的部门隔绝,决策者很难得到一个基于对大量数据进行运算后得到的企业经营运作总体图景,这种现象就称为“信息孤岛”。
企业中的信息流、资金流和物流应该能够相互验证,协调一致,但由于数据的分散和不兼容性,不同部门也有各自不同的体制,这样导致信息流所反映的资金流和物流的情况在很多时候还存在矛盾,这必然会导致信息之间的相互对抗。
如何解决信息囚笼、信息孤岛和信息对抗的问题是现代企业经营管理中面临的又一个挑战。
虽然进行信息系统建设非常麻烦,但却不能放弃。正如不能因为火车压死过人就不使用火车一样,决不能因为存在缺陷就拒绝新思想新技术的使用,应该想办法去消除信息孤岛、信息囚笼和信息对抗,趋利避害方能有所成。
实际上在本书的姐妹篇《SQL Server 2005数据库管理与应用高手修炼指南》中的最后一章,已经简单地阐述了从数据到智能的相关理论,那么在这里,需要解决的问题就是从现有系统中的数据出发,如何得到能真正辅助商业活动的智能,进而转化为利润,也就是完成信息系统的“数据→信息→知识→利润”转化过程。在《SQL Server 2005数据库管理与应用高手修炼指南》一书中,笔者详细地论述了3个相关问题:数据、信息、知识和智慧有何区别;一般情况下数据如何经由信息和知识生成智慧;基于数据库系统的智慧是如何产生的。本书将在以上问题的基础上进一步探讨由数据转化为商业智能后如何发挥其作用,即商业活动决策中的信息需求问题,在此基础上才能明确一个提供商业智能的系统到底应该包含哪些功能。
1.1.2 企业决策实现过程的信息需求
管理就是决策,决策需要信息。决策过程实际上就是一个信息输入、信息输出及信息反馈的循环过程。原来的决策支持系统,现在流行的商业智能,其目的都是为了辅助决策,让管理者从拍脑袋做决策到依据数据和事实做决策。这些依赖的数据和事实来源于两个方面,一是来源于竞争环境,这包括内部信息源(主要是存在于决策主体的经验信息)和外部信息源(主要是决策主体和咨询机构从社会中通过各种渠道获取的信息),另一方面来源于企业多年信息化建设中积累的数据库信息。对于第1个方面,信息的非结构化特征决定了其随意性和不确定性,这是决策理论中研究的问题,而对于第2个方面的信息,即使用存在于数据库中的信息来辅助决策的问题,就是可以通过商业智能从技术上来得到很大程度的解决。
要基于计算机辅助决策的软件系统(商业智能系统就是其中最典型的代表)进行决策,需要经过5个步骤:
1.决策信息请求(商务查询需求)的发起。例如,现在某公司的决策层次年度在不同的地区投资的力度,需要知道本年度和前5年华中、华北、华东和华南等区域的销售量和销售额,并且要有很美观的界面和直观的图示来表达这些来源于数据库中的数据,这就为此决策发出了信息请求。
2.调用商业智能应用程序。决策者可以直接使用原来的系统,如ERP和CRM等来访问相关的销售数据,但是,这些数据往往分散在不同的数据库中,原来的系统也可能并没有提供十分富有个性化的查询需求。比如,在上述的决策中,原系统可能只提供了所有年度的销售数据,而不会具体到某一年甚至某一个月,那么这时候要满足决策信息需求就必须使用基于数据仓库技术的商业智能应用程序。
3.基于已发布的模型、规则或是策略确定适当的决策。这一步是用计算机辅助决策的重要步骤。也是智能化体现的地方。决策(特别是结构化决策)是有一定规律的,这些规律可以从以往的决策过程或者从以往的数据中抽象获得,把抽象得到的这些规律放在经过特别组织的库中,可以构成模型库、规则库和策略库,智能决策可以在这些库的基础上获得。
4.发布决策。决策最终是人的行为,计算机辅助了决策过程中信息的提取和规律性决策的结果,但最终的决策行为还是掌握在决策者自己的手中。
5.采取行动。这是检验决策正确性的唯一途径。
图1-3是把以上决策过程中对信息的需求和计算机辅助决策的过程及其相互关系进行归纳所得。其中,图的左边部分是决策的信息源,右边部分借鉴了DSS(决策支持系统)的相关理论,表达了计算机辅助决策过程的全貌。
图1-3 决策信息源及基于计算机系统的决策过程
商业智能系统建设的目标就是要为企业提供一个统一的分析平台,充分利用原有系统中积累的宝贵数据,对其进行深层次的发掘,并从不同的角度分析企业的各种业务指标和构建业务知识模型,进而满足决策的信息需求和实现通过技术辅助决策的功能。
1.1.3 企业信息化系统的进化
信息流的质量、速度和覆盖范围,可以反映企业的生产、管理和决策等各方面的优劣度。企业的“生命活动”最终都将以信息流的形式展现。因此企业管理者十分重视信息流的管理。随着技术的发展,企业信息化系统也围绕着对信息流的更合理、更有效率的管理而努力着,这一点在图1-2信息管理工具的演变中已经明确。实际上,如果把相似的系统进行归一,如把对于企业相关领域的信息进行细节管理的系统都归一为管理信息系统,把通过资源管理的整合来实现全局利益最大化的系统归一为企业资源计划系统,那么企业信息化系统的转化可以表示为这样的一种路径:MIS→ERP→BI→智能决策系统。在这个路径中相应的管理对象就是:数据→信息→知识→利润。这里将通过描述这些系统的区别来明确商业智能系统在企业信息化浪潮中的位置。
管理信息系统和企业资源计划系统积累了大量的历史数据,这些数据是不同历史时期,根据不同业务的需要,由不同供应商提供的,体系结构和管理实施等方面存在着较大的差异,各系统间的数据也相对分散和独立,难以共享,没有建立起统一的能用于分析处理的基础数据平台。若一种类型的业务数据用一个三角形代表,那么这些百家争鸣、百花齐放的系统数据就犹如图1-4所示的状态,可见,要一下子明确整个企业中的业务数据和相互关系(即图示中三角形的数量和联系)是有较大困难的。
图1-4 百家争鸣、百花齐放的管理系统数据(共有多少个三角形?)
在来自不同系统的大量数据中往往隐藏着重要的规律和商业规则,这些是企业管理者需要从系统中寻找的“金矿”。此“金矿”的形成过程实际上就是“数据→信息→知识→智慧”的转化过程:对数据进行整理得到信息,深入的分析信息得到关于这些事实的相关情况,这就是知识。知识是宝贵的,如果将这些知识用在辅助决策上,会使决策更具科学性和可行性,这些决策可以是操作层面的,也可以是战术层面和战略层面的,于是,知识又转化成了智慧。若决策是用于企业经营管理中的,那么这种智慧就可以称为商业智慧,也就是商务智能,或者叫商业智能(Business Intelligence,BI)。
商业智能过程实际上包含2个层次。
第1个层次是在整合系统数据的基础上提供灵活的前端展现,例如,通过直方图等形式表现来自销售管理系统的地区销售情况报表,对复杂的计算则通过计算机的手段辅助完成。如图1-5所示的即是这种商业智能功能的直观表现。
图1-5 经过数据整合的BI系统功能(现在有多少个三角形?)
商业智能的第2个层次是数据库中的知识发现。许多商业、政府和科学数据库的爆炸性增长已远远超出了能够解释和消化这些数据的能力,需要新一代的工具和技术对数据库进行自动和智能地分析。这些工具和技术正是知识发现(Knowledge Discovery in Database, KDD)。知识发现的主要技术构成就是数据挖掘(Data Mining),“啤酒与尿布”的故事是在商业领域使用数据挖掘与知识发现的一个典型的案例(见《SQL Server 2005数据库管理与应用高手修炼指南》第18章)。
图1-6描述了加入智能数据挖掘算法后的系统功能。具备数据挖掘功能的商业智能系统能够在对历史数据分析的基础上,通过特定的算法,获取这些历史数据中的规律,进而完成预测、聚类和关联等功能。例如,通过系统对销售数据的分析,可能会发现“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”,即“面包+黄油+牛奶”是一种常见的顾客购买方式。这是关联规则分析的结果。使用关联规则还可以发现商品在时间或序列上的规律。这些规律对于商务的智能化和决策的科学化将有十分重要的意义。
图1-6 加入智能挖掘算法的系统功能(最后一个框中应该有多少个三角形?)
知识经济的主要资产是“知本(知识资本)”,应用在商务领域,“知本”包括对客户需求的认识、市场定位和市场细分的方式、正确的定价方案等。要获取这些“知本”,就要在已有资源(其中很重要的就是信息资源)的基础上,充分分析,获取这些“知本”,从而做出可信和可行的决策。