2.1 第1步：下载Spark_Spark快速大数据分析（第2版）-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

2.1　第1步：下载Spark

访问 Spark 下载页面，先在第 1 行下拉菜单中选择 Spark 版本，然后在第 2 行下拉菜单中选择“Pre-built for Apache Hadoop 2.7”，接着单击第 3 行的“Download Spark”链接，如图 2-1 所示。

图 2-1：Spark 下载页面

这会下载名为 spark-3.0.0-preview2-bin-hadoop2.7.tgz 的压缩包，其中包含在笔记本计算机上跑本地模式 Spark 所需要的所有与 Hadoop 相关的二进制文件。如果想将 Spark 安装到已有的 HDFS 或 Hadoop 集群中，可以从下拉菜单中选择相匹配的 Hadoop 版本。本书不会介绍如何从源码编译 Spark，如果感兴趣，你可以参阅相关文档。

在本书英文原版付梓时，Spark 3.0 还处于预览阶段，但下载最新版本的方法和步骤是一样的。

在 Spark 2.2 发布之后，对于只关心用 Python 语言学习 Spark 的开发人员而言，从 PyPI 仓库安装 PySpark 即可。如果只用 Python 写代码，那么你就没有必要安装那些运行 Scala、Java 或者 R 才需要的各种库，这样安装的东西就很小了。要想从 PyPI 安装 PySpark，只需要运行 pip install pyspark。

可以用命令 pip install pyspark[sql,ml,mllib] 为 SQL、ML 和 MLlib 安装一些额外的依赖项（如果只想安装 SQL 依赖项，则可以使用命令 pip install pyspark[sql]）。

你需要在机器上安装 Java 8 或者更高版本，并设置 JAVA_HOME 环境变量。关于如何下载并安装 Java，请查阅相关文档。

如果想在交互式 shell 模式中运行 R，需要先安装 R 语言环境，然后运行 sparkR。要想用 R 语言进行分布式计算，也可以选择使用开源项目 sparklyr，这是由 R 语言社区开发的项目。