大数据技术体系详解：原理、架构与实践

更新时间：2019-08-22 12:20:04

最新章节：16.4 本章问题

封面

版权信息

前言

第一部分概述篇

第1章企业级大数据技术体系概述

1.1 大数据系统产生背景及应用场景

1.2 企业级大数据技术框架

1.3 企业级大数据技术实现方案

1.4 大数据架构：Lambda Architecture

1.5 Hadoop与Spark版本选择及安装部署

1.6 小结

1.7 本章问题

第二部分数据收集篇

第2章关系型数据的收集

2.1 Sqoop概述

2.2 Sqoop基本架构

2.3 Sqoop使用方式

2.4 数据增量收集CDC

2.5 小结

2.6 本章问题

第3章非关系型数据的收集

3.1 概述

3.2 Flume NG基本架构

3.3 Flume NG数据流拓扑构建方法

3.4 小结

3.5 本章问题

第4章分布式消息队列Kafka

4.1 概述

4.2 Kafka设计架构

4.3 Kafka程序设计

4.4 Kafka典型应用场景

4.5 小结

4.6 本章问题

第三部分数据存储篇

第5章数据序列化与文件存储格式

5.1 数据序列化的意义

5.2 数据序列化方案

5.3 文件存储格式剖析

5.4 小结

5.5 本章问题

第6章分布式文件系统

6.1 背景

6.2 文件级别和块级别的分布式文件系统

6.3 HDFS基本架构

6.4 HDFS关键技术

6.5 HDFS访问方式

6.6 小结

6.7 本章问题

第7章分布式结构化存储系统

7.1 背景

7.2 HBase数据模型

7.3 HBase基本架构

7.4 HBase访问方式

7.5 HBase应用案例

7.6 分布式列式存储系统Kudu

7.7 小结

7.8 本章问题

第四部分分布式协调与资源管理篇

第8章分布式协调服务ZooKeeper

8.1 分布式协调服务的存在意义

8.2 ZooKeeper数据模型

8.3 ZooKeeper基本架构

8.4 ZooKeeper程序设计

8.5 ZooKeeper应用案例

8.6 小结

8.7 本章问题

第9章资源管理与调度系统YARN

9.1 YARN产生背景

9.2 YARN设计思想

9.3 YARN的基本架构与原理

9.4 YARN资源调度器

9.5 YARN资源隔离

9.6 以YARN为核心的生态系统

9.7 资源管理系统Mesos

9.8 资源管理系统架构演化

9.9 小结

9.10 本章问题

第五部分大数据计算引擎篇

第10章批处理引擎MapReduce

10.1 概述

10.2 MapReduce编程模型

10.3 MapReduce程序设计

10.4 MapReduce内部原理

10.5 MapReduce应用实例

10.6 小结

10.7 本章问题

第11章 DAG计算引擎Spark

11.1 概述

11.2 Spark编程模型

11.3 Spark运行模式

11.4 Spark程序设计实例

11.5 Spark内部原理

11.6 DataFrame、Dataset与SQL

11.7 Spark生态系统

11.8 小结

11.9 本章问题

第12章交互式计算引擎

12.1 概述

12.2 ROLAP

12.3 MOLAP