R语言数据处理及可视化分析
上QQ阅读APP看书,第一时间看更新

前言

R语言强大的统计分析及可视化能力是其他语言所不能比拟的,是统计学界、医学界比较流行的分析语言。正因为如此,R语言被蒙上了异常神秘的面纱,并且由于流行面窄,其优秀的功能不为大众所熟知,特别是在国内R语言基本处于不温不火的状态。

笔者使用R语言多年后发现:市面上的经典R语言书籍大多出自外国作者,由于文化、原始数据示例均来自国外,增加了学习者理解的难度;国内不少介绍R语言的书籍,也偏重统计等内容,而且不少书籍的内容安排对初学者不够友好:可能刚介绍完一个R语言知识点,接着就出现一个复杂的例子,而且理论太多,感觉学了之后,在实际工作中无法运用或者需要很长的酝酿期。

基于上述内容,本书希望解决大多数R语言学习者在学习过程中碰到的难点,聚焦R语言本身数据处理、可视化特点,以举例子的方式循序渐进地讲述R语言数据处理及可视化中用到的经典软件包,以便读者能快速将所学内容运用到实际工作中。

本书主要内容

第1章介绍R语言入门内容,主要介绍R语言是什么、软件的具体安装过程及需要注意的问题。

第2章介绍R语言数据可视化入门知识,主要简要介绍R语言ggplot2可视化基本语法、例子,以便给读者一个大体印象,激励读者继续学习。理论上应该在第1章的基础上讲解数据处理方法,但其是一个枯燥抽象的过程,初学者难以坚持,容易半途而废。

第3章介绍数据储存结构及数据处理(重点章节),介绍R语言中的数据存储结构、数据处理经典包。可视化分析需要数据输入,实际情况中的数据基本上需要重塑处理才能可视化,因此学习可视化分析的重要环节是掌握一定的数据处理技巧。

第4章介绍ggplot2可视化(重点章节)。以常用图形开始,逐个讲解ggplot2中各类图形绘制的具体语法和关键点。最后介绍图形的美化等工作(坐标轴、颜色、图例等的调整)。

第5章介绍ggplot2增强包。由于ggplot2非常流行,为了满足更为广泛的功能需求,不同作者围绕ggplot2开发了增强包,如ggforce、rplotly、ggstream等,本章将对此进行介绍。

第6章介绍数据可视化分析示例,介绍R语言在实际使用过程中的运用实例,按照由难到易的顺序运用本书前几章所学的内容,涉及外部数据采集、数据整合、分析可视化等内容。

附录A简要介绍rmarkdown环境,以便满足部分读者希望R语言直接生成报告的需求。另外,介绍数据量在吉字节级别的处理神器data.table包。

阅读建议

笔者从事财务分析、经营分析、数据挖掘多年,以非统计、医学等专业视角介绍R语言,把它视作Excel、Python、Tableau、数据库等同类分析工具介绍给大家,侧重数据处理及可视化在日常工作和学习中的运用,降低学习难度。读者需扫描下面的付费二维码,获取学习权限。

相信本书对数据分析有兴趣或从业者学习R语言有一定帮助;对于财务分析、经营分析、商业分析等有一定经验的读者,如果想突破Excel、Tableau等数据处理及可视化瓶颈,则本书也是不错的选择。当然,本书没有涉及统计、医学等专业领域特定的软件包,但对于该领域的读者学习数据处理及ggplot2绘图还是有积极借鉴意义的。

致谢

感谢我的父母及妻子,在我写作的过程中承担了全部的家务并照顾小孩儿,使我可以全身心地投入写作工作。感谢清华大学出版社赵佳霓编辑,在写作过程中不厌其烦地指点修正版式、结构等内容。

由于时间仓促,书中难免存在不妥之处,请读者见谅,并提宝贵意见。

杨德春

2023年8月15日