1.4.1 RDD简介_Spark大数据分析实战-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

1.4.1　RDD简介

在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Distributed Dataset，RDD）。它在集群中的多台机器上进行了数据分区，逻辑上可以认为是一个分布式的数组，而数组中每个记录可以是用户自定义的任意数据结构。RDD是Spark的核心数据结构，通过RDD的依赖关系形成Spark的调度顺序，通过对RDD的操作形成整个Spark程序。

（1）RDD创建方式

1）从Hadoop文件系统（或与Hadoop兼容的其他持久化存储系统，如Hive、Cassandra、HBase）输入（例如HDFS）创建。

2）从父RDD转换得到新RDD。

3）通过parallelize或makeRDD将单机数据创建为分布式RDD。

（2）RDD的两种操作算子

对于RDD可以有两种操作算子：转换（Transformation）与行动（Action）。

1）转换（Transformation）：Transformation操作是延迟计算的，也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行，需要等到有Action操作的时候才会真正触发运算。

2）行动（Action）：Action算子会触发Spark提交作业（Job），并将数据输出Spark系统。

（3）RDD的重要内部属性

通过RDD的内部属性，用户可以获取相应的元数据信息。通过这些信息可以支持更复杂的算法或优化。

1）分区列表：通过分区列表可以找到一个RDD中包含的所有分区及其所在地址。

2）计算每个分片的函数：通过函数可以对每个数据块进行RDD需要进行的用户自定义函数运算。

3）对父RDD的依赖列表：为了能够回溯到父RDD，为容错等提供支持。

4）对key-value pair数据类型RDD的分区器，控制分区策略和分区数。通过分区函数可以确定数据记录在各个分区和节点上的分配，减少分布不平衡。

5）每个数据分区的地址列表（如HDFS上的数据块的地址）。

如果数据有副本，则通过地址列表可以获知单个数据块的所有副本地址，为负载均衡和容错提供支持。

（4）Spark计算工作流

图1-5中描述了Spark的输入、运行转换、输出。在运行转换中通过算子对RDD进行转换。算子是RDD中定义的函数，可以对RDD中的数据进行转换和操作。

·输入：在Spark程序运行中，数据从外部数据空间（例如，HDFS、Scala集合或数据）输入到Spark，数据就进入了Spark运行时数据空间，会转化为Spark中的数据块，通过BlockManager进行管理。

·运行：在Spark数据输入形成RDD后，便可以通过变换算子fliter等，对数据操作并将RDD转化为新的RDD，通过行动（Action）算子，触发Spark提交作业。如果数据需要复用，可以通过Cache算子，将数据缓存到内存。

·输出：程序运行结束数据会输出Spark运行时空间，存储到分布式存储中（如saveAsTextFile输出到HDFS）或Scala数据或集合中（collect输出到Scala集合，count返回Scala Int型数据）。

图1-5　Spark算子和数据空间

Spark的核心数据模型是RDD，但RDD是个抽象类，具体由各子类实现，如MappedRDD、ShuffledRDD等子类。Spark将常用的大数据操作都转化成为RDD的子类。

本周热推：

R语言与数据挖掘数字媒体交互设计（初级）：Web产品交互设计方法与案例 Industrial Internet Application Development 数据资源的管理与调度：云环境下数据与资源协同技术零距离接触云计算