1.2 图的类型
工作中常见的二维图包括散点图、饼图、条形图、柱状图、折线图等。针对不同的行业,Origin通过对应的绘图工具来实现图表的绘制与美化。Origin中的专业图包括箱线图、面积图、等高线图、极坐标图、瀑布图等,用于展示不同领域的数据。
1.2.1 散点图
散点图(Scatter Plot, Scatter Chart),也叫散布图,是由一些散乱的点组成的图,点的位置由其X值和Y值确定,也叫XY散点图。散点图可用来表述直角坐标系上数据点的分布情况和因变量随自变量而变化的大致趋势。
观察散点的变化趋势,可以选择合适的函数进行经验分布拟合,同时散点图中常常还会拟合一些直线和曲线,以表示某些模型,进而找到变量之间的函数关系。
说明:在分析独立数据时,用直方图、帕累托图可以直接找到改善着眼点,但是要解析两个变量X、Y之间的相关性时,就要用到散点图。
当存在大量数据点时,散点图的作用尤为明显。散点图与折线图相似,不同之处在于折线图通过将点相连来显示每一个变化。
散点图经常用于显示和比较数值,如科学数据、统计数据和工程数据。在不考虑时间的情况下比较大量数据点时,可以使用散点图。散点图中包含的数据越多,比较的效果就越好。
1.2.2 饼图
饼图(Sector Graph,或Pie Graph),常用于统计分析展示,二维饼图为圆形。饼图仅适用于工作表中一列或一行数据的展示。
饼图用于显示一个数据系列(数据集)中各项大小与各项总和的比例。下面对“数据系列”及“数据点”做简要说明。
· 数据系列:图中绘制的相关数据,这些数据源自数据表的行或列。图中的每个数据系列具有唯一的颜色或图案,并且在图例中表示。很多图中可以绘制一个或多个数据系列,而饼图只能展示一个数据系列。
· 数据点:图中绘制的单个值,这些值用条形、柱形、部分饼图或环形图、圆点和其他被称为数据标记的图形表示。
绘制饼图时,对数据有如下要求:①仅有一个要绘制的数据系列;②要绘制的数据点没有负值;③要绘制的数据点几乎没有零值。
饼图可以有如下几种。
1)饼图以二维或三维形式显示每一数值相对于总数值的大小。
2)复合饼图(或复合条饼图)将用户定义的数值从主饼图中提取并组合到第二个饼图(或堆积条形图的饼图)。当需要更易于查看主饼图中的小扇面时,这些图表类型非常有用。
3)分离型饼图显示每一数值相对于总数值的大小,同时强调每个数值。分离型饼图以三维形式显示。
1.2.3 环形图
环形图(Donut Chart)又称为甜甜圈图,是由两个及两个以上大小不一的饼图叠在一起,挖去中间部分所构成的图形。
环形图中的一个环表示一个数据系列,数据列中的每一个数据点都由一段环带表示,因此环形图可显示多个样本中各部分所占的比例,从而有利于对样本构成的比较研究。
环形图与饼图相比具有以下优势。
1)在占比方面,环形图相较于饼图更容易让人把视觉重心从面积转移到长度上来,在肉眼观察数据占比情况的分析中,环形图更具视觉优势。
2)相对于饼图,环形图的空间利用率更高,比如可以使用环形图的空心区域补充说明数据的相关信息,往往更能吸引人的注意力,利于人们理解数据信息。
3)饼图只能显示一个样本中各部分所占的比例,而环形图则可以显示多个样本中各部分的构成。例如,将5个班级的成绩分别按优、良、中、差划分为4部分,要比较5个班级不同成绩学生的构成情况,则需要绘制5张饼图,这种做法既不经济也不便比较,而利用环形图则只需要绘制一张。
1.2.4 条形图
条形图(Bar Chart)是用同宽条形的长短来表示数据大小的图表。条形图可以横置或纵置,纵置时也称为柱形图(Column Chart)。
描绘条形图的要素有组数、组宽度、组限3个。
· 组数:把数据分成若干组(通常是5~10组)。
· 组宽度:通常每组的宽度是一致的。组数和组宽度不是独立决定的,多采用公式:近似组宽度=(最大值-最小值)/组数,然后四舍五入确定初步的组宽度,之后根据数据情况进行调整(这仅仅是推荐选择)。
· 组限:分为组下限(进入该组的最小可能数据)和组上限(进入该组的最大可能数据),并且一个数据只能在一个组限范围内。
条形图是统计分析中最常用的图表,具有以下优点。
1)能够一眼看出各个数据的大小。
2)易于比较数据之间的差别。
条形图与直方图(Histogram)比较类似。直方图又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据的分布情况,多用横轴表示数据类型,纵轴表示分布情况。条形图与直方图的区别如下。
1)条形图是用条形的高度来表示频数的大小;而直方图实际上是用长方形的面积来表示频数,当长方形的宽相等时可以用矩形的高来表示频数。
2)条形图中横轴上的数据是孤立的,是一个具体的数值;而直方图中,横轴上的数据是连续的,为一个范围。
3)条形图中,各长方形(不同组)之间有空隙;而直方图中,各长方形(不同组)是靠在一起没有空隙的。
4)直方图可以归一化,以显示相对频率,即几个类别中每个案例的比例,其高度等于1;条形图则无此功能。
1.2.5 箱线图
箱线图(Box Plot)也称箱须图(Box-whisker Plot)、箱形图、盒须图、盒式图等,用于反映一组或多组连续型定量数据分布的中心位置和散布范围,由美国著名数学家John W. Tukey于1977年首次在其著作Exploratory Data Analysis中使用。
箱线图包含的数学统计量不仅能够分析不同类别数据的水平差异,还能揭示数据间离散程度、异常值、分布差异等。
绘制箱线图时,需要先找出一组数据的上边缘、下边缘、中位数和两个四分位数,然后连接两个四分位数画出箱体,再将上边缘和下边缘与箱体相连,并画出中位数线条,如图1-1所示。
图1-1 箱线图的构成示意图
箱线图具有以下展示效果。
1)可以直观明了地显示异常值。
箱体中包含了大部分的正常数据,而在箱体上边界和下边界之外的就是异常数据。
2)可以判断数据的偏态和尾重。对于标准正态分布的大样本,中位数位于上、下四分位数的中央,箱体关于中位线对称。中位数越偏离中央位置,分布偏态性越强。异常值集中在较大值一侧,则分布呈现右偏态;异常值集中在较小值一侧,则分布呈现左偏态。
3)可以比较多批数据的集中程度。箱体的上下限分别是数据的上四分位数和下四分位数,这意味着箱体包含了50%的数据。因此,箱体的高度在一定程度上反映了数据的集中程度:箱体越扁说明数据越集中。同样,端线(也就是“须”)越短也说明数据越集中。
1.2.6 面积图
面积图又称区域图,可用于引起人们对总值趋势的关注,它与折线图、柱形图、散点图一样,都是常用的数据展示图,它能够直观地将累计数据呈现出来。
面积图根据呈现的形式可以分为二维面积图和三维面积图。二维面积图主要以平面的形式呈现效果,三维面积图则是以立体的形式呈现效果。面积图根据强调的内容不同,又可以分为以下三类。
· 普通面积图:显示各种数值随时间或类别变化的趋势线。
· 堆积面积图:显示每个数值所占大小随时间或类别变化的趋势线。可强调某个类别交于系列轴上的数值的趋势线。
· 百分比堆积面积图:显示每个数值所占百分比随时间或类别变化的趋势线。可强调每个系列的比例趋势线。
堆积面积图和百分比堆积面积图还可以显示部分与整体的关系。采用面积图展示数据可以起到以下作用。
1)比折线图看起来更加美观。
2)能够突出每个系别所占据的面积,把握整体趋势。
3)不仅可以表示数量的多少,还可以反映同一事物在不同时间里的变化情况。
4)可以纵向与其他系别进行比较,能够直观反映出差异。
5)可以用于商务报表、数据汇报等场景。
1.2.7 等高线图
等高线图一般指等高线地图,是将地表高度相同的点连成一环线直接投影到平面形成二维曲线。不同高度的环线不会相合,只有悬崖或峭壁才能使某处线条太过密集而出现重叠现象。地图中通常用等高线表示地面起伏和高度状况。
在等高线图中,若地表出现平坦开阔的山坡,曲线间的距离就很宽。等高线图所示高度以海平面为基准。
在同一幅等高线图上,地面越高则等高线条数越多。等高线密集的地方,地面坡度陡峻。凡等高线几乎重合处,必为峭壁。等高线为较小的封闭曲线时,这一地区便是山峰、洼地或小岛。根据等高线不同的弯曲形态,可以判读出地表形态的一般状况。
1.2.8 弦图
弦图(Echarts)是一种表示实体之间相互关系的图形,它可以在“多类别+复杂关系”的情况下有效降低视觉复杂度。就场景而言,弦图常用来表现复杂的关系(如人与其他物种之间基因的联系)以及数据的流动情况(如智能手机市场份额流动)等。
弦图多用来表示一组节点之间的关系,包括外部节点和内部连接节点的边,其中,边的宽度表示其权重,即弦。弦是有方向的,因此弦图多用环形来表示。
弦图表达的含义如下。
1)连接的边直接显示对象之间的关系。
2)边的宽度与关系的强度成正比,这一点上比其他图形映射更直观。
3)边的颜色可以是关系的另一种图形映射。
4)扇形宽度代表一个物体与其他物体相连的总强度。