上QQ阅读APP看书,第一时间看更新
1.2.4 可扩展
Spark 的重心在于快速的分布式计算引擎,而不是存储。和 Apache Hadoop 同时包含计算和存储不同,Spark 解耦了计算和存储。这意味着你可以用 Spark 读取存储在各种数据源(Apache Hadoop、Apache Cassandra、Apache HBase、MongoDB、Apache Hive、RDBMS 等)中的数据,并在内存中进行处理。你还可以扩展 Spark 的 DataFrameReader
和 DataFrameWriter
,以便将其他数据源(如 Apache Kafka、Kinesis、Azure 存储、亚马逊 S3)的数据读取为 DataFrame 的逻辑数据抽象,以进行操作。
Spark 的生态系统日渐壮大,社区的开发人员维护着各种第三方 Spark 扩展包,如图 1-2 所示。这个丰富的生态系统包括各种外部数据源的 Spark 连接器,以及性能监控工具等。
图 1-2:Spark 的连接器生态