更新时间:2021-03-27 00:16:12
封面
版权信息
内容简介
前言
第1章 Spark生态环境
1.1 平台设计
1.2 Spark简介
1.3 虚拟环境∗
1.4 HBase技术∗
1.5 环境部署
1.6 小结
第2章 理解Spark
2.1 数据处理
2.2 认识RDD
2.3 操作RDD
2.4 Scala编程
2.5 案例分析
2.6 小结
第3章 键值对与分区
3.1 键值对RDD
3.2 分区和洗牌
3.3 共享变量
3.4 Scala高级语法
3.5 案例分析
3.6 小结
第4章 关系型数据处理
4.1 Spark SQL概述
4.2 结构化数据操作
4.3 案例分析
4.4 小结
第5章 数据流的操作
5.1 处理范例
5.2 理解时间
5.3 离散化流
5.4 离散流的操作
5.5 结构化流
5.6 案例分析
5.7 小结
第6章 分布式的图处理
6.1 理解图的概念
6.2 图并行系统
6.3 一个例子
6.4 创建和探索图
6.5 图运算符
6.6 Pregel∗∗
6.7 案例分析
6.8 小结
第7章 机器学习∗
7.1 MLlib
7.2 数据类型
7.3 统计基础
7.4 算法概述
7.5 交叉验证
7.6 机器学习管道∗∗
7.7 实例分析
7.8 小结
第8章 特征工程∗∗
8.1 特征提取
8.2 特征转换
8.3 特征选择
8.4 局部敏感哈希
8.5 小结
第9章 算法汇总∗∗
9.1 决策树和集成树
9.2 分类和回归
9.3 聚集
9.4 小结
第10章 Spark应用程序∗∗
10.1 SparkContext与SparkSession
10.2 构建应用
10.3 部署应用
10.4 小结
第11章 监视和优化∗∗
11.1 工作原理
11.2 洗牌机制
11.3 内存管理
11.4 优化策略
11.5 最佳实践
11.6 案例分析
11.7 小结
参考文献