2.1 简易环境配置
要下载R软件,可以登录R软件官方网站,选择一个与自身所在地接近的镜像进行安装(见图2-1)。然后根据自身计算机所用的系统,下载相关的R软件套件(见图2-2)。以Windows系统为例,单击相关链接后,会弹出新的界面(见图2-3),找到install R for the first time的链接,单击即可下载。
图2-1 CRAN镜像网页
图2-2 R软件下载界面
图2-3 Windows系统下R软件的下载
下载之后,打开安装包,然后按照向导进行安装即可。一般而言,把R软件安装在纯英文的路径下可以减少后续不必要的报错。安装过后打开软件,可以看到图2-4所示的脚本对话框界面。
图2-4 R软件的脚本对话框界面
对于初学者而言,推荐直接使用R软件来进行代码尝试。R软件中有相应的脚本编辑器可以用,如图2-5所示。在打开的编辑器中,可以使用Ctrl + R组合键对代码进行逐行运行,使用Ctrl + S组合键则可以对脚本进行保存(保存文件的扩展名为.R)。
图2-5 脚本编辑器
在入门后,如果需要管理较多脚本和较复杂的项目,则推荐使用集成开发环境(Integrated Development Environment,IDE)。目前使用比较广泛的R语言IDE是Rstudio。Rstudio不仅免费易用,而且功能强大,能够提供一站式的R语言拓展服务,如显示帮助文档和图片、自动代码补全等,同时内部支持其他R包(如rmarkdown、knitr等)。Rstudio可以在其官方网站中下载,普通用户选择免费的桌面版即可。安装完毕后,打开Rstudio,可以发现它大致可以分为4个模块,如图2-6所示。其中,在左上角部分可以进行脚本的编写,并可以将脚本保存为以.R为扩展名的文件,具有自动代码补全功能,并且支持逐行运行(Ctrl + Enter)、复制(Ctrl + C)、粘贴(Ctrl + V)、撤销(Ctrl + Z)、保存(Ctrl + S)等组合键,非常方便。右上角部分为控制台,它相当于直接打开R软件的命令行对话框。左下角部分可以看到环境里面的变量,除此之外它还包括运行历史等其他选项卡。右下角则有包括文件路径、绘图展示、帮助文档等选项卡。
图2-6 Rstudio基本界面展示
R语言的繁盛很大程度得益于其社区的开发者无私地分享代码,从而让数据科学实现的门槛大大降低。在R语言中有一系列的函数可以完成对包的管理,下面以tidyfst包为例进行说明。
# 安装包
install.packages("tidyfst")
# 加载包
library(tidyfst)
# 卸载包
remove.packages("tidyfst")
# 如果没有安装,就安装;否则,先安装再进行加载
if(!require(tidyfst)){
install.packages("tidyfst")
library(tidyfst)
}
# 清除包
detach("package:tidyfst")
这里需要区分安装和加载的概念,安装是指计算机把软件包从网络下载到本地并编译的过程(install.packages),这个过程必须联网;而加载则是把本地已经安装好的软件包加载到环境中去(library)。卸载的过程就是把联网下载的包从本地移除(remove.packages),而清除包的概念则是把已经加载的包从环境中清除(detach),但是在本地中依然存在。在R语言中,有各种各样的包可以实现丰富的功能。以上面提到的功能为例,我们可以使用pacman包进行更加便捷的实现。示例代码如下:
if(!require(pacman)){
install.packages("pacman")
library(pacman)
}
# 安装包
p_install(tidyfst)
# 加载包
p_load(tidyfst)
# 卸载包
p_delete(tidyfst)
# 如果没有安装,就安装;否则,先安装再进行加载
p_load(tidyfst)
# 清除包
p_unload(tidyfst)