SQL Server 2005数据挖掘与商业智能完全解决方案
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

出版说明

从技术到工程,软件工程师需要顺利从编码者成长为系统设计者,也需要在进行系统设计的同时掌握软件需求、测试等环节的方法。

近两年系统开发和应用的一些趋势

近几年,在数据库系统开发或系统集成中,有几种态势的发展越来越清晰,值得我们关注,其中也包含技术和应用方面的一些变化:

➢ 软件工程方法越来越受到重视,并且从烦琐的“国际模板”中逐步解脱出来,总结出了一套适合我们自己的软件工程的“简化版本”,没有令人眼花缭乱的概念,也没有没完没了的控制和反馈,也没有无穷无尽的单据需要确认。

➢ IT应用格局从C/S体系的一支独秀,发展到C/S和B/S共分天下。这可能是近年来IT应用方面最大的一个变化。这两种类型的系统其实在满足特定的客户需求上毫无优劣高下之分,适合的就是最好的。系统设计师不应该也不可能因为自己的喜好,而不顾客户的需求来设计软件系统。

➢ 涌现了很多新的技术和新型的系统应用。事实上,只有新的需求才能刺激新的应用诞生,绝对不会因为新的技术而带来新的应用。清醒的程序员把精力放在系统需求的变化上,盲动的程序员把精力放在不停地追赶技术的更迭上。

关于“开发专家之数据库”系列

“开发专家之数据库”是在充分把握技术人员需求脉搏的基础上,强力打造的新作品。本系列丛书在延续原有优势的基础上,针对行业系统开发特征和数据库开发的不同技术,融合了当前主流的程序开发语言和主流的数据库系统,为不同行业、不同工具掌握者提供最实用的开发指南。

数据库开发一直是软件编程中最受关注的领域。长久以来,各种在开发领域中雄踞一时的语言或技术,都和数据库开发有非常密切的关系。软件研发人员在选择开发语言和数据库时,就像在做一个配对游戏,每个软件公司和每个开发者都在不断地改变着他们的选择。

在他们不断进行语言和工具的选择的同时,社会在变化,行业的需求在不断地扩展。可以说,行业信息化的热潮才刚刚开始,特别是中小型企业的信息化建设步伐刚刚迈出第一步,这个软件开发的市场是非常巨大的,迫切需要大量高素质的开发从业人员。

行业应用系统的开发有着它独有的特征和要求。一个成熟的软件开发者,必然是深知行业需求、胜任多种构架的系统设计、娴熟各类开发工具的多面手。从根本上说,这种三位一体的完美结合,才能创造出一个合格的行业系统。当然,我们也不能忘记周边还有许多工作要做,比如系统测试等。

如何突破:新案例、新应用、新方法

第一批“开发专家之数据库”丛书出版以来,得到了广大读者的认可。我们感到有必要在信息系统开发领域推出新的图书,来帮助另外一些有了一定技术基础的读者顺利过渡到真实的软件工程思维中来,这就是我们所定义的“突破”的含义。

归纳起来,第二批图书也将从行业角度出发,整合各类开发语言和数据库系统,把系统设计、语言编程、软件测试等规范的软件工程无缝嵌入到本丛书的叙述中,为读者提供一整套行业系统开发的解决方案。

在面向纯数据库领域,我们以《SQL Server 2005数据库管理与应用高手修炼指南》为先导,将推出一系列极具应用价值的图书,为广大读者提供全面的数据库技术指南。

飞思科技产品研发中心

联系方式

咨询电话:(010)68134545 88254160

电子邮件:support@fecit.com.cn

服务网址:http://www.fecit.com.cn http://www.fecit.net

通用网址:计算机图书、飞思、飞思教育、飞思科技、FECIT

前言

An organization's ability to learn, and translate that learning into action rapidly, is the ultimate competitive advantage.

Jack Welch

Chairman, General Electric

这是被誉为“世界第一CEO”的杰克·韦尔奇的一句话:一个组织的学习能力,以及快速地把所学到的东西转化为行动的能力,才是这个组织的终极竞争优势。

杰克·韦尔奇在20年内把一个机构臃肿,等级森严,对市场反应迟钝,并且在全球竞争中正走下坡路的GE变成“全美最受推崇公司”。笔者经常思考这句话,对于一个人来说,只要定位清楚、有理想、有远见,打造出有自己竞争优势的学习内容和学习方法应该不是一件难事,但是对于一个组织来说,这个“终极竞争优势”应该如何打造,却不是件容易的事。

“物竞天择,适者生存”是大自然的一个普遍法则,不仅适用于生物体,也适用于企业。而今置身于市场经济且面向全球性激烈竞争的环境下,任何商家的优势都不是单纯地取决于产品、服务和地区等方面的因素,而在于知识,在于创新。谁最先获得有用的知识并转化为行动,谁就可能成为赢家。随着企业信息化的普及,承载信息的数据随着时间的推移而不断积累并与日俱增,使得企业难以从大量数据中找到真正有用的决策信息。因此,企业迫切需要新的技术和方法从大量数据中提取有价值的信息和知识。数据仓库、数据挖掘及建立在它们基础之上的商业智能就是这种技术之一。数据仓库是一种针对大量数据集中进行数据组织与管理的技术,专门用于支持分析型的数据查询,而数据挖掘是从大量数据中寻找蕴涵在其中但尚未被发现的知识,而商业智能则是把这两者应用于商务领域,提高决策效率。

在全球激烈的市场竞争中,只有在市场上领先的企业,才能立于不败之地。商业智能和数据挖掘越来越受到企业的重视,要打造组织的“终极竞争优势”,这应该是一条必经之路。

“社会一旦有技术上的需要,则这种需要就会比十所大学更能把科学推向前进。”正是因为对商业智能和数据挖掘的需求已经成为了一种普遍共识,各大软件厂商才对此趋之若鹜。微软也不例外,在其推出的新版本数据库管理软件SQL Server 2005中,不仅在数据管理方法和数据库应用程序开发方面有了很大的改进,在商业智能方面更是发生了巨大的变化。笔者在BI和DM领域已经工作多年,在SQL Server 2005推出后,第一时间使用了其增强的BI功能,并在学习和应用中有所感悟。笔者认为有必要把这些感悟组织成文,提供给同行和初学者,于是有了本书。以下是关于本书在这些方面的一些说明。

一、本书的内容安排思路

本书的内容和其姊妹篇《SQL Server 2005数据库管理与应用高手修炼指南》相比,实际上是把SQL Server 2005的应用从数据的技术实现提升到了数据的价值实现。除了数据管理方面的组件外,在商业智能方面,SQL Server 2005还提供了分析服务(Analysis Services)、报表服务(Reporting Services)和数据挖掘(Data Mining)的全面集成,数据转换服务(DTS)由SQL服务器集成服务(SSIS)代替。基于SQL Server 2005的这些内部构成原理,本书将着眼点放在数据挖掘和商业智能上,数据库的管理与应用则作为阅读本书的基础。具体的内容安排如下图所示,阴影部分即为SQL Server 2005商业智能和数据挖掘部分,也是本书重点论述的对象。

数据报表、数据分析和数据挖掘是BI的3个层面。不管是用什么软件作为商业智能的平台,一个完整的BI应用都遵循统一的一个流程,这就是BI解决方案的体系结构,如下图所示。本书在安排基于SQL Server的BI系统开发技术内容时,把这个体系结构作为本书结构构成的依据,目的就是希望读者随时都能以系统的眼光来看待BI构建中的每一个细微环节。

从图中可以看到,全书共12章,每一章都可以在BI解决方案体系结构中找到相应的坐标。具体而言每一章的内容是:

第1章 发掘数据金矿的工具:BI与DW、OLAP、DM。先简单地说明企业经营管理活动对商业智能的需求,从而明确实施BI的原因,解决Why的问题;再阐述商业智能的技术构成,大概了解如何实现商业智能,解决What和How的问题;最后列举一些实际的部署商业智能项目结果,解决What Effect的问题。

第2章 构建简单的BI应用:福马特商业智能系统。在内容安排上属于实践中的“务实”,理论上的“务虚”,只着眼于操作过程而忽略其中的深奥理论,目的在于明确一个商业智能应用的全貌。

第3章BI分析的基石:结构良好的数据仓库设计。对数据仓库的设计进行深入学习,把复杂的数据仓库与商业智能理论融入到具体的操作中,探究构建数据仓库的理论和方法。

第4章 用SSIS对数据进行ETL操作。学习针对数据仓库的提取、转换和加载操作。包括SSIS关键元素的使用、一个完整的SSIS包的创建方法、包的调试、包的配置和部署以及SSIS的管理。

第5章SSIS在商业智能中的典型应用。如何用SSIS工具来满足商业智能系统中复杂的数据整合需求。包括SSIS在BI系统中的应用场景,一个复杂的商务应用实例分析,业务数据装载,数据清洗,另外还对SSIS商业智能的应用进行了总结。

第6章 用SSAS进行OLAP操作。这一章的任务就是去实践OLAP理论,并进一步把它转化为实际应用。数据仓库最重要的一个组成部分就是数据立方,因此,数据立方的设计技巧和操作方法也理所当然地成为本章的主要内容。

第7章 数据立方的增强及其应用。包括对维度与度量关系的更改、为Cube增加计算来增强Cube的功能、定义和使用KPI来满足商业需求等。

第8章用MDX扩展OLAP功能。MDX在多维数据库中的应用,不仅为我们提供了便利查询和获取多维数据的有效途径,还扩展了多维数据的视觉化效果,从而使我们的商业智能系统更加符合企业应用的需求,实现强大的功能。本章将针对能够对多数数据进行访问和操作的MDX语言,从简单的语法要素入手,以进阶的方式,学习MDX从基础到高级的应用。

第9章 用SSRS处理智能报表。本章是前面商业智能应用解决方案的继续,把报表服务作为SQL Server 2005提供的BI平台的前端展现部分进行描述。包括报表的基本知识、SSRS的配置与管理、基本报表的增强和报表生成器的使用等内容。

第10章 基于SSAS的商业智能分析。本章的目的是在前面讲述的技术和管理需求之间搭建一座桥梁,使得技术真正能够用来解决商务活动中的实际问题。包括构架商业智能系统的生命周期、商业智能向导、KPI分析、80/20法则的分析和用专业前端展现工具呈现商业信息。

第11章 数据挖掘体系结构与基本使用方法。进入商业智能更深一层次的应用——数据挖掘。包括数据挖掘的基本知识、SQL Server数据挖掘方案的构成和一个完整的数据挖掘示例——线性回归算法(逻辑回归算法,决策树算法,聚类分析算法,Naive Bayes算法和关联算法的使用),还对数据挖掘进行了简单地总结。

第12章 用数据挖掘技术满足商业分析需求。包括商业智能应用中的数据挖掘、潜在客户分析、购物篮分析和数据挖掘的前端展现等知识。

二、本书的写作特色

本书定位在实践上面,而不是从理论到理论。但是作为商业智能必须应用在管理活动中,管理理论在BI项目的成功实施里占据了十分重要的地位。基于此,本书遵循一种“理论-实践-理论”的学习路径,即先概要认识理论的实践价值,再在使用技术实现此理论的过程中进行体会。沿着这条路径,我们为使本书具有以下几方面的特点做了坚持不懈的努力。

1.实践的厚度

商业智能不是夸夸其谈,而是产生效益、数据挖掘不是数学公式,而是找到模式。本书着眼于实践,具体讲述了业务数据装载、数据清洗、关键性能指标分析方法和8/2法则的分析方法等,真正能满足商务需求的操作,并力求对实现过程和操作步骤的表述清晰、简洁。在数据挖掘方面,本书避免了复杂的算法实现和推理,而是在简明扼要的论述其算法精髓的基础上,重点讲解如何通过技术手段实现这个算法在商务领域的应用,同时还讲述了潜在客户分析和购物篮分析等具体技术细节。

2.理论的深度

理论可以让实践产生更好的效果。BI的特殊性决定了经济管理理论在技术实践过程中的巨大指导作用。因此本书以BI解决方案的体系结构为全书的骨架,具体描述了每一个技术实现细节的商务需求和管理要点。可以说,这在所有BI平台中都是通用的。通过本书的学习,可以系统地领悟商业智能和数据挖掘在解决实际问题中的各个方面。

3.学习的效度

笔者在数据库及其应用领域研究多年,深感把数据的价值应用于商务中相关知识的不系统性,因此在写作过程中很重视知识体系的完整性和学习曲线的平缓性,体现在行文中,本书每一章都有一个“本章导读”来导航该章的学习,同时在知识跨度和难度比较大的章节都有总结,这些总结都是笔者在学习和工作中心血的结晶,可以为读者有效地学习提供很大的帮助。

基于以上的这些努力,我们希望借微软推出的SQL Server 2005这个产品,把本书写成BI和DM领域有理论、有实践、既通俗、又经典的书。能不能达成所愿,还需要时间和读者的检验。

本书是我的呕心沥血之作,在成书的过程中我牺牲了很多东西,历时也较长。我不希望它纯粹是一本畅销书,而是希望它能历久弥香,以此为标准而成此书,着实费了一番心血。

在写作过程中,得到了许多人的帮助,特别是爱妻徐铭莲女士,没有你的全力支持,我是不可能有任何作为的,辛苦你啦!

本书参考了许多先贤圣达的资料和文章,大部分都在参考文献中列出来了,借此机会对他们表示衷心的感谢。

另外,还要特别感谢的是电子工业出版社的田小康先生,在成书过程中,你以大海般的胸襟原谅了我许多过失,没有你的这份理解和宽容,也就没有本书顺利的写作。

尽管在写作本书的过程中,作者和编辑都尽可能地字斟句酌,尽量减少错和漏,但毕竟人无完人,金无足赤,本书也不可避免地会出现一些bug,欢迎广大读者批评指正!同时针对此书的内容和技术上的任何问题,作者将会提供不间断地持续增值服务,读者要做的只是把相关内容发送到zdlxml@126.com即可。

重庆师范大学 朱德利

2007年9月