上QQ阅读APP看书,第一时间看更新
本书内容特色
本书基于Spark 2.4.x新版本编写,作为Spark的入门书,知识面比较广,涵盖当前整个Spark生态系统主流的大数据开发技术。本书内容丰富,以实操案例为主,理论为辅,一步一步手把手对常用的Spark离线计算以及实时计算等系统进行讲解。
全书共9章,第1章讲解Scala语言的基础知识,包括IDEA工具的使用等;第2章讲解Spark的主要组件、集群架构原理、集群环境搭建以及Spark应用程序的提交和运行;第3~9章讲解离线计算框架Spark RDD、Spark SQL和实时计算框架Kafka、Spark Streaming、Structured Streaming以及图计算框架GraphX等的基础知识、架构原理,同时包括常用的Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、HBase、Kafka的整合操作。