实战大数据(Hadoop+Spark+Flink):从平台构建到交互式数据分析(离线/实时)
上QQ阅读APP看书,第一时间看更新

前言

大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质量,应用大数据技术为企业核心竞争力的提升打下了坚实的基础。

大数据技术在企业项目开发中主要涉及数据采集、数据存储和数据计算三个方面:数据采集是利用采集技术将各种数据源、不同格式的数据快速采集到大数据平台。数据存储是将采集过来的数据,按照不同应用场景,使用不同技术进行存储,为数据计算做准备。数据计算可以根据数据的时效性,对存储的数据进行离线计算和实时计算,最终的计算结果可以为企业决策提供数据支撑。数据采集、数据存储和数据计算这三个方面是大数据工程师的必备技能。

本书的主要特色是以一个完整的大数据项目为主线,涵盖Hadoop、Spark、Flink等主流大数据技术,按照大数据工程师的项目开发流程,理论与实践结合,逐步推进,使读者在学习大数据核心技术的同时,也能掌握开发大数据项目的完整流程,从而获得大数据项目开发经验。

本书共有8章。

第1章是大数据技术概述,主要讲解了什么是大数据、大数据平台架构、大数据工程师的技能树以及大数据项目的需求分析与设计,让读者对整个大数据平台架构以及需要掌握的大数据技能有一个整体的了解。

第2章主要讲解了如何搭建IDEA开发环境和Linux虚拟机,为大数据项目的开发打好环境基础。

第3章是基于Hadoop构建大数据平台,介绍了Zookeeper基础理论及分布式集群构建、HDFS基础理论及分布式集群的构建、YARN基础理论及分布式集群的构建以及MapReduce分布式计算框架,让读者掌握Hadoop集群构建的同时也能了解Hadoop集群运行的原理。

第4章详细讲解了HBase分布式数据库技术和Kafka分布式消息队列技术,基于HBase和Kafka可以构建海量数据存储和交换系统。

第5章是用户行为离线分析,介绍了Flume采集技术和Hive离线分析技术,并基于Flume、Kafka、HBase、Hive等大数据技术构建了日志采集和分析平台。

第6章是基于Spark的用户行为实时分析,主要讲解了Spark的核心、Spark集群的构建、Spark Streaming实时计算、Spark SQL离线分析以及Structured Streaming实时计算,并基于Spark Streaming和Structured Streaming完成了新闻项目的实时分析,基于Spark SQL完成了新闻项目的离线分析。

第7章是基于Flink的用户行为实时分析,主要讲解了Flink集群的构建、Flink DataStream实时计算以及Flink DataSet离线计算,并基于Flink DataStream完成了新闻项目的实时分析,基于Flink DataSet完成了新闻项目的离线分析。

第8章是用户行为数据可视化,介绍了Java Web技术,然后基于Java Web技术完成了前台与后台的开发,实现了对用户行为数据的可视化。

本书内容非常丰富,既可以作为大数据工程师的必备开发手册,也可以作为高校大数据及相关专业的教材或实验手册。

尤其要说明的是,本书还提供了近30GB的学习配套资料,除了包含学习本书内容所需的安装包、配置文件、数据集外,更依照本书章节配置了对应的整套扩展学习视频,可以供读者更为系统全面地学习大数据技术。扩展学习视频一共包含30个课程,与本书章节对应关系如下。

第1章:扩展视频01

第2章:扩展视频02

第3章:扩展视频03~08

第4章:扩展视频09~12

第5章:扩展视频13~20

第6章:扩展视频21~29

第8章:扩展视频30

可通过扫描关注机械工业出版社计算机分社官方微信订阅号—IT有得聊,回复67966即可获取本书配套资源下载链接。也可通过添加本人微信号john_1125,获取本书配套资源。

由于大数据技术发展迅速,而且相关技术组件繁多,书中难免有不足之处,恳请各位同仁及读者提出宝贵意见和建议。

杨俊