第3章 键值对与分区
本章介绍如何使用键值对RDD,这是Spark中许多操作所需的常见数据类型。键值RDD用于执行聚合,通常做一些数据初始的提取、转换和加载,以将数据转换为键值对格式。在键值对RDD上可以应用新的操作,例如计数每个产品的评论;将数据与相同的键分组在一起,并将两个不同的RDD分组在一起。
另外,本章还将讨论一个高级功能,即分区功能,可让用户跨节点地控制配对RDD的布局。使用可以控制的分区,应用程序有时可以通过确保数据在同一个节点上一起访问,大大降低数据分布在不同节点上的通信成本,这样可以显著减少RDD计算时间。