Spark海量数据处理:技术详解与平台实战
上QQ阅读APP看书,第一时间看更新

阅读方法

本书一共分为3部分,分别为第一部分“基础篇”、第二部分“应用篇”和第三部分“总结篇”,共16章。

第一部分主要围绕BDAS(伯克利数据分析栈),不仅会介绍如何开发Spark应用的基础内容,还会介绍Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题,在第一部分的最后一章还会介绍Alluxio。这一部分中包含了很多完整的示例,并附带了真实的数据集,读者可以自己进行试验。

第二部分会实现一个企业背景调查系统,该系统借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足需求,因此,这一部分既是对第一部分很好的巩固,又完整呈现了一个大数据应用开发过程。

第三部分是对全书的总结和展望,主要来源于一些业界和学界的进展。