前言
国家提出要加快5G网络和数据中心等新型基础设施建设(简称新基建)的进度。其中,信息化新型基础设施包含云计算、大数据、人工智能、区块链、5G等内容。大数据是指具有海量(volume)、多模态(variety)、变化速度快(velocity)、蕴含价值高(value)和真实性(veracity)“5V”特征的数据,使得传统的数据存储、管理、分析技术已经无法满足大数据的处理要求。大数据给传统的数据处理和数据分析带来巨大的挑战,已引起学术界和工业界的高度关注。Hadoop正是在这种背景下产生的一个大数据开源平台。许多大型互联网公司,如谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握Hadoop大数据技术的人才,而目前人才市场上大数据技术相关人才由于种种原因存在供不应求的状况,本书在这个背景下创作而成。
本书内容
本书是一本关于Hadoop 3.2.2大数据平台搭建和数据分析、生态体系主要组件的应用和开发方面的实战书籍,涉及的知识面比较广,涵盖了当前整个Hadoop生态系统主流的大数据开发技术。本书从实践操作与开发讲起,在基本操作已经掌握以后,再回过头来讲解理论知识。所以,本书是先实践再理论,方便读者快速掌握Hadoop大数据分析技术。
全书共分11章,第1章讲解Hadoop框架简介及新版本特性,并详细介绍大数据环境的准备工作,包括Linux操作系统的安装、SSH工具使用和配置等;第2章讲解Hadoop伪分布式的安装和开发体验,使读者熟悉Hadoop大数据开发两大核心组件,即HDFS和MapReduce;第3~9章讲解Hadoop生态系统各框架HDFS、MapReduce、输入/输出、Hadoop集群配置、ZooKeeper、HBase、Hive、Flume数据采集系统、Kafka等,并通过实际案例加深对各个框架的理解与应用。第10~11章分别通过影评大数据分析项目实战和旅游酒店评价大数据分析项目实战,使读者了解完整的大数据项目开发过程,并巩固所学的知识,使之掌握的内容更加系统、全面。
本书目的
通过本书的学习,读者可以对照书中的步骤成功搭建属于自己的Hadoop大数据集群,并掌握基于Hadoop的大数据分析与开发技术,最终能够独立完成Hadoop大数据分析与开发项目。
本书适合的读者
本书可作为Hadoop框架初学者的入门书以及大数据分析人员的参考手册,也可作为高校开设大数据平台搭建或大数据开发课程的参考教材。学习本书要求读者有一定的Java编程基础并了解Linux系统的基础知识。本书每一个章节的实践操作内容都有详细清晰的步骤讲解,即使读者没有任何大数据基础,也可以对照书中的步骤成功搭建属于自己的大数据集群,本书是一本真正提高读者动手能力、以实操为主的入门书籍。通过本书的学习,结合每章配套的源代码,读者能够迅速理解与掌握Hadoop大数据相关技术框架,并可以熟练使用Hadoop集成环境进行大数据项目的开发。
配套源码、PPT课件等资源下载
本书配套源码、PPT课件、教学大纲与编程环境,需要用微信扫描下边二维码获取,可按扫描后的页面提示填写你的邮箱,把下载链接转发到邮箱中下载。如果下载有问题或阅读中发现问题,请联系booksaga@163.com,邮件主题写“Hadoop大数据分析技术”。
作者
2022年9月