前言
近年来,大数据浪潮汹涌来袭,与互联网一样,这不仅是信息技术领域的革命,更是在全球范围加速企业创新、引领社会变革的利器。现代管理学之父德鲁克说过,预测未来最好的方法,就是去创造未来。而“大数据战略”正是当下领航全球的先机。大数据指一般的软件工具难以捕捉、管理和分析的大容量数据。大数据之“大”,并不仅在于“容量之大”,更在于其通过对海量数据的交换、整合和分析,发现新的知识、创造新的价值,带来“大知识”“大科技”“大利润”和“大发展”。
数据科学与大数据技术专业,简称数科或大数据专业,旨在培养具有大数据思维、运用大数据思维研究及分析的高层次大数据人才,掌握计算机理论和大数据处理技术,从数据管理、系统开发、海量数据分析与挖掘三个层面系统地培养学生掌握大数据应用中的各种典型问题的解决办法,提升学生解决实际问题的能力。
基本内容
本书共分为12章,各章主要内容如下。
第1章主要对大数据产生的背景、大数据的结构与特征、大数据相关概念、大数据可视化、大数据处理相关工具与发展前景进行了介绍。通过第1章的学习,读者能够初步掌握大数据的基本知识,熟悉大数据处理与分析的操作环境及可视化方法,为后面的进一步学习打下坚实的基础。
第2章主要介绍了分布式计算平台Hadoop及其基础知识、Hadoop发展史、Hadoop体系结构等,让读者对Hadoop有一个简单的认识,了解如何在Hadoop上开发和运行处理海量数据的应用。
第3章首先介绍分布式文件系统的基本概念、结构和设计需求,然后介绍HDFS,详细阐述它的重要概念、体系结构、存储原理和读写过程,最后介绍了一些HDFS编程实践方面的知识。
第4章着重介绍了MapReduce“分而治之,迭代汇总”的处理海量数据的并行编程模型和计算框架,让读者了解MapReduce的数据类型与格式、序列化、数据分片、MapReduce的架构与接口类,通过单词计数程序将上述知识点串联并阐述MapReduce的思想。
第5章详细地介绍了HBase开源数据库,HBase的安装与配置、常用API、HBase架构及实现原理等,使读者快速对HBase有一个全方面的了解。
第6章着重介绍了NoSQL的基础,一致性策略、数据分区与放置策略、数据复制与容错、数据缓存等,结合NoSQL典型应用工具,结合实例简明扼要地叙述了NoSQL的基本应用。
第7章阐述了Spark生态系统全貌,包含SparkSQL、Spark Streaming、GraphX、MLlib等,了解Spark的功能、特点以及场景应用。通过对Spark的安装部署,基本操作和运行模式,并通过编程实例来加深了解运用Spark的相关知识。
第8章首先介绍了Storm流计算的基本概念和需求,阐述了流计算的处理流程、应用场景、Storm的设计思想和架构设计,最后介绍了Spark Streaming及其应用实例。
第9章介绍了分布式协调系统Zookeeper概念及其主要特征和数据模型、Zookeeper的安装和配置、Zookeeper API的简单使用、Zookeeper shell的操作,最后介绍了一个选举案例让读者更深入地了解Zookeeper的作用及应用。
第10章通过销售数据分析系统的应用案例,介绍了大数据分析应用系统的完整开发过程,涵盖了数据采集、数据分析、数据转换和结果显示的整个流程。
第11章介绍了在Hadoop平台上进行交互式数据处理的方法,然后介绍了利用Hive基本工具进行实时交互式大数据的处理和分析。
第12章介绍了协同推荐算法的基本概念和几种典型分类。利用Spark MLlib实现了协同过滤推荐算法及协同交互过程。
本书特点
本书编者长期给本科生和研究生讲授数据库、数据挖掘、物联网和云计算等与大数据相关的课程,有着丰富的教学实践和科研经验。本书内容条理清晰,并按照读者学习的一般规律由浅入深、循序渐进,并配以大量的图片说明和实例讲解,能够使读者快速地了解和掌握大数据原理及应用案例。
读者对象
● 大数据基础知识的初学者。
● 具有一定大数据基础并希望更深入了解、掌握大数据原理与应用的中级读者。
本书适合作为大中专院校数据科学与大数据专业、计算机类专业的教材,也可作为从事大数据挖掘等工作的科研或者工程技术人员的参考书。
本书由赵国生、王健和宋一兵主编。哈尔滨师范大学赵国生主要负责第1~8章,哈尔滨理工大学王健负责第9、10章,宋一兵负责第11、12章。参加本书编写工作的还有管殿柱、王献红、李文秋,学生曲晓峰、张慧、蒋欣洋、陈炫慧、贺敬、张志敏等为本书做了大量辅助性工作,在此一并感谢。
本书得到了以下项目的支持:国家自然科学基金项目“可生存系统的自主认知模式研究”(61202458)、国家自然科学基金项目“基于认知循环的任务关键系统可生存性自主增长模型与方法”(61403109)、高等学校博士点基金项目(20112303120007)、哈尔滨市科技创新人才研究专项(2016RAQXJ036)和黑龙江省自然科学基金(F2017021)。
虽然编者在编写本书的过程中力求叙述准确、完善,但由于水平有限,书中欠妥之处在所难免,希望读者将对本书的意见和建议告诉我们。作者联系邮箱:syb33@163.com。
编者