更新时间:2019-01-01 01:25:42
封面
版权信息
前言
基础篇
第1章 Spark简介
1.1 什么是Spark
1.1.1 概述
1.1.2 Spark大数据处理框架
1.1.3 Spark的特点
1.1.4 Spark应用场景
1.2 Spark的重要扩展
1.2.1 Spark SQL和DataFrame
1.2.2 Spark Streaming
1.2.3 Spark MLlib和ML
1.2.4 GraphX
1.2.5 SparkR
1.3 本章小结
第2章 Spark部署和运行
2.1 部署准备
2.1.1 下载Spark
2.1.2 编译Spark版本
2.1.3 集群部署概述
2.2 Spark部署
2.2.1 Local模式部署
2.2.2 Standalone模式部署
2.2.3 YARN模式部署
2.3 运行Spark应用程序
2.3.1 Local模式运行Spark应用程序
2.3.2 Standalone模式运行Spark应用程序
2.3.3 YARN模式运行Spark
2.3.4 应用程序提交和参数传递
2.4 本章小结
第3章 Spark程序开发
3.1 使用Spark Shell编写程序
3.1.1 启动Spark Shell
3.1.2 加载text文件
3.1.3 简单RDD操作
3.1.4 简单RDD操作应用
3.1.5 RDD缓存
3.2 构建Spark的开发环境
3.2.1 准备环境
3.2.2 构建Spark的Eclipse开发环境
3.2.3 构建Spark的IntelliJ IDEA开发环境
3.3 独立应用程序编程
3.3.1 创建SparkContext对象
3.3.2 编写简单应用程序
3.3.3 编译并提交应用程序
3.4 本章小结
第4章 编程模型
4.1 RDD介绍
4.1.1 RDD特征
4.1.2 RDD依赖
4.2 创建RDD
4.2.1 集合(数组)创建RDD
4.2.2 存储创建RDD
4.3 RDD操作
4.3.1 转换操作
4.3.2 执行操作
4.3.3 控制操作
4.4 共享变量
4.4.1 广播变量
4.4.2 累加器
4.5 本章小结
第5章 作业执行解析
5.1 基本概念
5.1.1 Spark组件
5.1.2 RDD视图
5.1.3 DAG图
5.2 作业执行流程
5.2.1 基于Standalone模式的Spark架构
5.2.2 基于YARN模式的Spark架构
5.2.3 作业事件流和调度分析
5.3 运行时环境
5.3.1 构建应用程序运行时环境
5.3.2 应用程序转换成DAG
5.3.3 调度执行DAG图
5.4 应用程序运行实例
5.5 本章小结
第6章 Spark SQL与DataFrame
6.1 概述
6.1.1 Spark SQL 发展
6.1.2 Spark SQL 架构
6.1.3 Spark SQL 特点
6.1.4 Spark SQL 性能
6.2 DataFrame
6.2.1 DataFrame和RDD的区别
6.2.2 创建DataFrame
6.2.3 DataFrame 操作
6.2.4 RDD转化为DataFrame
6.3 数据源
6.3.1 加载保存操作
6.3.2 Parquet 文件
6.3.3 JSON 数据集
6.3.4 Hive 表
6.3.5 通过JDBC 连接数据库
6.3.6 多数据源整合查询的小例子
6.4 分布式的SQL Engine
6.4.1 运行Thrift JDBC/ODBC 服务
6.4.2 运行 Spark SQL CLI
6.5 性能调优