第1章 R语言编程与绘图基础
1.1 学术图表的基本概念
学术图表是为论文结论(conclusion)提供证据的视觉方式。所以,论文作者为了产生强烈的视觉效果,应该通过分析实验数据,精心设计可视化图表。本书开篇先跟大家讲讲学术图表的类型。通常学术论文中主要有三类图表,如图1-1-1所示。流程示意图和数据展示图都是非常讲究技能的图表,本书重点讲解的是数据展示图。
图1-1-1 不同类型的图表[1]
1.数据展示图:先根据数据绘制成图表,再将其导出生成图片,主要包括各种点线图、柱形图、饼图等统计图表,一般使用Excel、GraphPad Prism、SigmaPlot、Origin、MATLAB、Python、R等专业绘图软件绘制(Excel并非如大众所说不能导出高分辨率的图片和矢量图)。注意,保存图片时,一定要保存成高分辨率的TIFF格式和EPS矢量格式的图片,因为矢量图片是可以使用图片处理软件进行再编辑的。由数据生成的图表是可重复修改的,因此一定要保存好原始数据,一旦发现图表有任何问题可以马上进行修改。
2.实验拍摄图:使用设备或者仪器拍摄采集的图片,包括显微镜、扫描仪及摄像机等所拍照片。一定要在最刚开始时就拍成高清的(设置成高分辨率),也就是要保证原始图片的高分辨率,接下来处理图片就会比较方便,免得因为图片质量不佳而重复实验。若有必要,则可以将每张图片存储成TIFF和JPG两种格式(以应对部分期刊的特殊要求)。
3.流程示意图:使用简明的线条、基本图形和箭头等绘制论文中的重要的实验流程或步骤,用以说明基本原理或解释文字材料,一般使用PPT、Visio、Illustrator、CorelDRAW、3DMax等软件绘制。
1.1.1 学术图表的基本作用
图表在学术论文中是很重要的一部分。实验结果通常是论文的核心和主要部分,而实验结果一般以图表的形式呈现。读者经常通过图表来判断这篇文章是否值得阅读,所以每个图表都应该能不依赖正文而独立存在。所谓“一图抵千言”(A picture is worth a thousand words)。图表设计是否精确且合理直接影响数据的完整与准确表达,从而影响论文的质量。图表是期刊评审过程中仅次于摘要的关键一环,准确而美观的图表能促进审稿人和读者对论文表达的快速理解。以Nature上的文章Cotranslational signal-independent SRP preloading during membrane targeting [2]选取的前两页为例(见图1-1-2),我们首先关注的是论文的标题(title),其次是第一页最开始的摘要(abstract),接下来我们就被这些包含大量实验数据与信息的图表所吸引。在每页的文章中,包含图名(figure)的图表部分几乎占据整个页面的1/4~1/3,由此可见图表在论文中的重要性。
根据Edward R.Tufte在The Visual Display of Quantitative Information[3]和Visual Explanations[4]中的阐述,图表在论文中的作用主要有:
(1)真实、准确、全面地展示数据;
(2)以较小的空间承载较多的信息;
(3)揭示数据的本质、关系、规律。
第三点作用尤为重要,Matthew O. Ward也提出,可视化的终极目标是洞悉蕴含在数据中的现象和规律,这包括多重含义:发现、决策、解释、分析、探索和学习[5]。表1-1-1所示的原始数据是31组x-y的二维数据。仅仅只从数据的角度去观察数据,就很难发现x与y之间的具体关系。将实际的数据分布情况使用二维可视化的方法呈现,如图1-1-3所示,则可以快速地从数据中发现数据内在的模式与规律。所以,有时使用数据可视化的方法也可以很好地帮助我们去分析数据。
图1-1-2 论文摘取的页面案例[2]
表1-1-1 四组二维数据点集(相同的x变量,不同的y变量:y1, y2, y3, y4)
图1-1-3 四个不同规律的二维数据点集的可视化案例
1.1.2 学术图表的基本类别
我们可以先通过国际顶级期刊的学术图表,如Science、Nature、Cell等(见图1-1-4和图1-1-5),了解优秀学术图表的基本类型与风格。图表从色彩运用的角度可以分成两大类:彩色图表与黑白图表。
图1-1-4 Nature期刊的图表案例
图1-1-5 Science期刊的图表案例
1.黑白图表
由于彩色印刷的成本相对较高,所以大部分期刊是非彩色的,期刊也往往要求投稿的学术图表为黑白颜色,如图1-1-4(b)和图1-1-4(c)所示。如果论文中使用的都是彩色图表,有些期刊可能会在出版时向作者收取额外的彩色出版费用。在黑白图表中,数据系列的区分主要体现在数据标记上,可使用不同的填充纹理(见图1-1-4(b))或不同的填充颜色和标记形状(见图1-1-4(c))。
2.彩色图表
随着互联网的发展,现在越来越多的文章会预先在网上发布(publish online),而且越来越多的读者与审稿人都喜欢阅读PDF形式的文章,这也导致越来越多的期刊接受彩色图表。彩色图表往往比黑白图表更加美观,从而更加吸引读者与审稿人。有时只借助纹理、形状等无法准确而全面地展示数据,就只能用颜色来丰富数据的表达,如图1-1-5(b)所示,由于不同数据系列的数据量多而密集,如果使用形状(如菱形◇、圆心〇、方形□、三角形△等)区分数据系列,就很难清晰地展示数据的分布规律。
国内期刊一般以黑白印刷为主,绘图时需要注意采用不同的线型、标记等对不同曲线进行区分;国外的期刊相对而言以彩色印刷为主,但需要注意颜色的搭配。
1.1.3 学术图表的绘制原则
每个学术期刊都有自己对学术图表的基本要求,具体可以参考投稿期刊的《作者投稿指南》或Author Guidelines、Author Instructions。以Nature期刊为例,作者的投稿主页(submit manuscript)如图1-1-6所示,然后点击instructions for authors,就可以进入作者的投稿指南,其中就有对图表(figure)的要求,包括基本图表要求(general figure guideline)和终稿图表要求(final figure submission guideline)两个部分。
图1-1-6 Nature投稿主页页首
所以,学术图表首先要规范,符合期刊的投稿要求,然后在规范的基础上实现图表的美观和专业。在当前贯彻科技论文规范化、标准化的同时,图表的设计也应规范化、标准化。总而言之,学术图表的制作原则主要是规范、简洁、专业和美观。
1.规范:规范就是指学术图表符合投稿期刊的图表格式和分辨率方面的要求,这是绘制图表的一个基础条件。绘图时满足投稿期刊的图表要求,这样至少能满足期刊编辑的要求,不会立即被退稿、被要求修改图表格式,例如图表的单位、字体、坐标、图例、轴名等。另外,期刊还会要求图表的分辨率和格式,一般要求RGB彩色图片的分辨率为300dpi及以上。
2.简洁:学术图表的关键在于清楚地表达数据信息。Robert A.Day在How to write and publish a scientific paper[12]书中指出:Combined or not,each graph should be as simple as possible(如果一张学术图表包含的数据信息太多,反而让读者难以理解自己所要表达的数据信息)。所以,学术图表应尽量简洁、清楚地表达数据信息。考虑到期刊的印刷成本,学术图表的尺寸也要尽量以较小的空间承载较多的信息,但要保证能看清图表的文字。
3.专业:图表类型的选择是做好图表的重要基础。专业就是指图表要能全面地反映数据的相关信息。当我们获得足够的实验数据后,需要重点思考的就是选择哪种图表能更加全面地表达数据信息。比如,同样是多次重复实验获得的数据,带误差线的散点图、带误差线的柱形图、箱形图等图表类型的选择就是我们要重点考虑的问题。
4.美观:图表美观是做好图表的一个重要条件。美观是指学术图表要简洁且具有美感。图表的配色、构图和比例等是影响图表美观的主要因素。但是由于大部分理工科的学生平时缺乏审美能力的训练,所以这也是许多学术图表缺乏美感的主要原因。