前言
为什么要写这本书
伴随着Web 2.0、云计算、物联网等概念和技术的提出与快速发展,信息时代的“大数据”特征越来越明显。大数据相关的数据仓库、数据挖掘技术在商业、军事、经济、学术等众多领域也开始发挥越来越大的作用。与此同时,庞大的数据规模也给传统的数据挖掘工作带来了巨大的挑战。分布式计算平台具有强劲的数据处理能力,因此,数据挖掘与分布式计算平台相结合的方式正在成为行业的趋势,并不断地显现出强大的优势和潜力。以Hadoop为代表的分布式系统,正在逐渐成为大数据挖掘系统的必要组成部分。结合Hadoop分布式架构进行数据挖掘的方式具备更高的计算效率,且计算能力的扩展性也更好。
如何将大数据技术和数据挖掘技术相结合,解决企业实际遇到的大数据相关问题,并从数据中挖掘出有价值的信息,是企业面临的难题。因此,目前企业对大数据人才依旧有比较大的需求,并且对大数据人才的专业技能、实操能力提出了更高的要求。
在大数据领域中,Hadoop技术的应用无疑很广泛。Hadoop技术除了自身强大的功能之外,也可以与Mahout、Spark MLlib等技术结合使用,这样不仅可以帮助企业对海量数据进行基础分析,还能构建挖掘模型,从大数据中挖掘出有价值的信息。
本书提供了大数据相关技术的介绍、原理、实践、真实业务场景应用等内容,能够有效指导高校教师与学生理解和掌握大数据相关技术原理及技术实践,并为数据挖掘与分布式计算平台的结合使用打下良好的技术基础,同时也能够促进教学实践与行业技术及应用发展的动态融合。
本书特色
本书采用“基础篇+实战篇”的编写结构,深入浅出地介绍了大数据相关技术的原理、知识点及具体应用,适合教师教学使用和零基础自学者使用。
本书的基础篇从大数据的概念、特点、应用及大数据平台出发,较为全面地介绍了大数据相关的技术框架,包括Hadoop、HBase、Hive、Spark、Flume、Kafka等框架,内容讲解由浅入深。此外,基础篇的第2~8章在讲解了相关技术的知识点后,还通过相对独立的场景应用实例,帮助读者使用大数据技术对业务数据进行分析。通过对基础篇的学习,读者可以学习大数据相关技术的原理并掌握大数据技术的相关操作,为后续数据挖掘与分布式计算平台的结合使用打下良好的技术基础。
本书的实战篇介绍了多个综合实战案例,描述了企业在实际业务中遇到的真实场景问题,通过对整个案例流程进行详细分析,并综合运用大数据技术完成数据的采集、预处理、分析挖掘等操作,最终实现了案例的目标。实战篇的内容对读者有一定的实践指导作用,也能够帮助读者提高使用大数据相关技术进行数据挖掘的基本能力。学生或技术人员在通过实战篇进行实践的同时,也可以学习案例的分析方法,培养良好的案例分析能力及思考能力。
本书基础篇各章都配有课后习题,可以帮助读者巩固大数据技术的知识点,更加深刻地理解书中所介绍的大数据技术的基本内容。
为了帮助读者更好地使用本书,本书提供了配套原始数据文件、程序代码以及PPT课件,读者可以从泰迪云教材(https://book.tipdm.org/)免费下载。
本书适用对象
- 开设大数据、大数据挖掘相关课程的高校的师生。
- 大数据技术开发人员。
- 大数据架构师。
- 数据挖掘方面的技术人员或数据挖掘技术爱好者。
如何阅读本书
本书使用基于开源Hadoop生态圈的主流技术与真实案例相结合的方式,深入浅出地介绍了Hadoop、Hive、HBase、Spark、Flume、Kafka等大数据技术的原理、操作及具体应用。本书共11章,分两个部分:基础篇、实战篇。
基础篇(第1~8章):从大数据的概念、特点、应用以及大数据平台入手,主要介绍与数据挖掘相关的Hadoop生态系统组件技术的基础知识与应用,包括大数据基础架构Hadoop、数据仓库Hive、分布式协调框架ZooKeeper、分布式数据库HBase、分布式计算框架Spark、大数据采集框架Flume、消息订阅系统Kafka等,并通过场景应用案例帮助读者掌握各大数据组件的基础操作。
实战篇(第9~11章):包括3个案例,分别为图书热度实时分析系统、O2O优惠券个性化投放、消费者人群信用智能评分。实战篇主要关注实战用例,通过3个综合实战案例提升读者对大数据技术的综合运用能力。各章从案例的背景与目标入手,分析案例需求,在明确案例的流程后通过大数据技术解决实际的业务问题,同时也让读者切身感受到大数据技术解决大数据企业应用的魅力。
第2版更新内容
结合近几年Hadoop大数据技术与数据挖掘的发展情况和广大读者的意见反馈,本书在保留第1版特色的基础上,进行了代码与内容的全方位升级。在代码方面,将教材所介绍的大数据组件的版本进行全面升级,充分考虑了大数据技术的发展情况。在内容方面,对基础篇和实战篇均进行了升级。
基础篇具体升级内容如下。
1)全面升级教材所有组件的版本,并同步更新组件知识点的讲解及基础操作。
2)删除了原第5章和第7章。
3)新增了第4章、第7章、第8章。
4)第2~8章中新增了场景应用实例,帮助读者巩固所学的知识点,快速掌握书中所介绍的大数据技术的基础操作。
5)各章增加了课后习题,可以帮助读者巩固所学的知识点,更加深刻地理解书中所介绍的大数据技术的基本内容。
实战篇增加了多个综合实战案例,旨在提升读者对大数据技术的综合运用能力。具体升级内容如下。
1)删除原第8章。
2)新增第9章、第10章和第11章。
勘误和支持
由于作者水平有限,书中难免存在一些疏漏和不足的地方。如果你有更多的宝贵意见,欢迎在泰迪学社微信公众号(TipDataMining)回复“图书反馈”进行反馈。本系列图书的更多信息可以在泰迪云教材(https://book.tipdm.org/)查阅。
张良均
2022年4月于广州