上QQ阅读APP看书，第一时间看更新

第3章
BDAS简介

提到Spark不得不说伯克利大学AMPLab开发的BDAS（Berkeley Data Analytics Stack）数据分析的软件栈，如图3-1所示是其中的Spark生态系统。其中用内存分布式大数据计算引擎Spark替代原有的MapReduce，上层通过Spark SQL替代Hive等SQL on Hadoop系统，Spark Streaming替换Storm等流式计算框架，GraphX替换GraphLab等大规模图计算框架，MLlib替换Mahout等机器学习框架等，其整体框架基于内存计算解决了原来Hadoop的性能瓶颈问题。AmpLab提出One Framework to Rule Them All的理念，用户可以利用Spark一站式构建自己的数据分析流水线。

图3-1　Spark生态系统

在一些数据分析应用中，用户可以使用Spark SQL预处理结构化数据，GraphX预处理图数据，Spark Streaming实时捕获和处理流数据，最终通过MLlib将数据融合，进行模型训练，底层各个系统通过Spark进行运算。

下面将介绍其中主要的项目。

第3章 BDAS简介

第3章
BDAS简介