上QQ阅读APP看书,第一时间看更新
第 2 章 下载并开始使用 Apache Spark
本章将带领你安装 Spark,并通过 3 个简单的步骤带你入门,编写出自己的第一个独立的 Spark 应用。
在本地模式中,所有的处理都在单台机器上完成。我们将使用本地模式,因为这对于学习框架而言更简单,而且可以对迭代执行的 Spark 操作提供快速的反馈闭环。在使用 Spark shell 编写复杂的 Spark 应用前,你可以在小数据集上用 Spark 操作尝试出原型。但对于需要强大的分布式执行的大规模数据集来说,本地模式就不太合适了,YARN 或者 Kubernetes 这些部署模式会更合适。
虽然 Spark shell 只支持 Scala、Python 和 R 语言,但在编写 Spark 应用和用 Spark SQL 发起查询时,你可以使用支持的任意一种语言(包括 Java)。希望你至少熟悉其中一种语言。