上QQ阅读APP看书,第一时间看更新
写在前面
R语言是近十年来快速崛起的一门以数据分析为特色的计算机编程语言,对于还未接触过它的读者来说,一切都是陌生而新鲜的。开篇的这段文字,仅仅针对R语言的新手,而对于有一定R语言基础的读者,比如知道如何下载安装R语言,就完全可以跳过这一段。R语言是完全免费的开源软件,大家可以在其官方网站上(https://cran.r-project.org/),根据自己的计算机操作系统,选择相应的版本进行下载。截至2017年6月30日,R语言的最新版本为3.4.1。R语言的安装全部是点击式操作,因此不涉及复杂的编译或配置过程,故在此不详述。安装完毕后,Windows系统用户可以在桌面上发现两个R语言的快捷方式图标,其中一个是基于64位系统,另外一个是基于32位系统,两者并不冲突,因此可以不予理会。双击其中一个图标,即可进入R语言的图形用户界面(R GUI)。该界面相对简陋,对于非计算机专业的用户来说极不适应,因此在这里给大家推荐另外一款与R语言配套的集成开发环境(IDE)——Rstudio。Rstudio是目前最流行的R语言IDE,其界面友好,操作方便,针对普通用户的版本同样是免费的。大家可以在其官网下载最新版本(https://www.rstudio.com/)。Rstudio的安装同样简单方便,大家无需将R语言与Rstudio安装在同一目录下,只需要注意一点,即先安装R语言,再安装Rstudio即可。
安装工作完毕之后,大家可以直接打开Rstudio进行操作,此时R语言是无需同时打开的。Rstudio的基本界面如下图所示。
其中,文本编辑框的功能类似于一个普通的文本编辑器,主要用于代码的编写,此处编写的代码不会自动运行,需要选中相应的代码,然后点击文本编辑框右上角的绿色“Run”按钮,或者使用“Control + R”(Windows),“Commond + R”(Mac OS)的键盘组合运行代码。控制台是R语言代码输入和结果输出的地方,在此处键入代码,摁下“enter”键即可即时得到相应的结果。从文本编辑框中运行的代码,其代码和结果也会在控制台显示出来。右上角的环境变量框展示的是在不同操作环境中的变量和数据(默认是全局环境,即global environment)。右下角是Rstudio特有的应用框,从左至右依次是“Files”(文件展示窗口),“Plots”(图形展示窗口),“Packages”(包展示窗口),“Help”(帮助文档窗口),“Viewer”(视图窗口)。
Rstudio基本操作界面
R语言是函数式编程的计算机语言,在实际应用中,我们会使用大量的已经封装好的函数。比如求解一组数据的算数平均数,不需要逐个相加求和再除以数据的个数,而只需要调用mean()函数(注意,在接下来的行文中,凡是R语言函数,均会带上小括号,以便同普通文本区分)。函数就像一台机器,如果想要得到输出,就必须要有输入才行。在函数内部,存在若干参数,比如mean()函数中的x,这些参数就像是机器的控制按钮,选择的参数不同,得到的结果也会不同,当然,这其中部分参数是“必需参数”,即该参数不能忽略,一旦忽略则会报错。另外一些参数称为“非必需参数”,只有在执行特定需求时才会使用它们,比如mean()函数中的na.rm参数,该参数针对的是原始数据中存在缺失值的情形,如果原数据没有缺失值,则该参数可以忽略。还有一类参数称为“缺省参数”,也称作“默认参数”,通俗来讲,即该参数具有一个“天生”的值,如果不对其进行修改,那么每次默认都使用该值。“非必需参数”和“缺省参数”界限并非十分明显,但是“必需参数”是每一次都必须要接受相应值的。
R语言中还有一个显著的特点,就是包(package)的存在。包就像R语言的“弹药库”,不同的包其功能不全相同或者完全不同(因为研究领域不同)。在R语言安装好之后,大家会发现已经有大约20几个包存在,比如 MASS, utils等,我们可以把这些包称为“系统包”(system library),它们无需再次下载,就像战士随身配备的手枪和匕首,只需使用library()函数进行加载就可调用(部分包,比如 utils,甚至无需加载就可以直接使用)。而对于其他包,当我们需要使用时,第一步是下载它。如果该包已经在CRAN上发布,那么我们可以使用install.packages()函数下载,比如下载 ggplot2,可以使用如下代码:
下载好之后,如果需要使用它,则必须使用library()函数对其进行加载。