Spark快速大数据分析(第2版)
上QQ阅读APP看书,第一时间看更新

2.1 第1步:下载Spark

访问 Spark 下载页面,先在第 1 行下拉菜单中选择 Spark 版本,然后在第 2 行下拉菜单中选择“Pre-built for Apache Hadoop 2.7”,接着单击第 3 行的“Download Spark”链接,如图 2-1 所示。

图 2-1:Spark 下载页面

这会下载名为 spark-3.0.0-preview2-bin-hadoop2.7.tgz 的压缩包,其中包含在笔记本计算机上跑本地模式 Spark 所需要的所有与 Hadoop 相关的二进制文件。如果想将 Spark 安装到已有的 HDFS 或 Hadoop 集群中,可以从下拉菜单中选择相匹配的 Hadoop 版本。本书不会介绍如何从源码编译 Spark,如果感兴趣,你可以参阅相关文档。

在本书英文原版付梓时,Spark 3.0 还处于预览阶段,但下载最新版本的方法和步骤是一样的。

在 Spark 2.2 发布之后,对于只关心用 Python 语言学习 Spark 的开发人员而言,从 PyPI 仓库安装 PySpark 即可。如果只用 Python 写代码,那么你就没有必要安装那些运行 Scala、Java 或者 R 才需要的各种库,这样安装的东西就很小了。要想从 PyPI 安装 PySpark,只需要运行 pip install pyspark

可以用命令 pip install pyspark[sql,ml,mllib] 为 SQL、ML 和 MLlib 安装一些额外的依赖项(如果只想安装 SQL 依赖项,则可以使用命令 pip install pyspark[sql])。

你需要在机器上安装 Java 8 或者更高版本,并设置 JAVA_HOME 环境变量。关于如何下载并安装 Java,请查阅相关文档。

如果想在交互式 shell 模式中运行 R,需要先安装 R 语言环境,然后运行 sparkR。要想用 R 语言进行分布式计算,也可以选择使用开源项目 sparklyr,这是由 R 语言社区开发的项目。