上QQ阅读APP看书,第一时间看更新
第3章
BDAS简介
提到Spark不得不说伯克利大学AMPLab开发的BDAS(Berkeley Data Analytics Stack)数据分析的软件栈,如图3-1所示是其中的Spark生态系统。其中用内存分布式大数据计算引擎Spark替代原有的MapReduce,上层通过Spark SQL替代Hive等SQL on Hadoop系统,Spark Streaming替换Storm等流式计算框架,GraphX替换GraphLab等大规模图计算框架,MLlib替换Mahout等机器学习框架等,其整体框架基于内存计算解决了原来Hadoop的性能瓶颈问题。AmpLab提出One Framework to Rule Them All的理念,用户可以利用Spark一站式构建自己的数据分析流水线。
图3-1 Spark生态系统
在一些数据分析应用中,用户可以使用Spark SQL预处理结构化数据,GraphX预处理图数据,Spark Streaming实时捕获和处理流数据,最终通过MLlib将数据融合,进行模型训练,底层各个系统通过Spark进行运算。
下面将介绍其中主要的项目。