可视化分析与SAS实现
上QQ阅读APP看书,第一时间看更新

第1章 可视化分析概论

1.1 可视化分析的意义

数据可视化分析是通过友好的交互式图形界面,来辅助用户对数据进行复杂处理和分析的科学与技术。数据分析的可视化至少包含两个方面的含义,其一是指在数据分析的过程中,通过直观的图形化界面以交互的方式采用合适的数据分析方法,对复杂的数据进行有效的处理和分析,其二是指在各个分析阶段的分析结果处理中,通过直观的图形化界面以交互的方式采用包括图像在内的多种形式表达展示和传递分享分析的结果。

数据分析的意义在于从数据中发现有意义的信息。可视化数据分析的意义在于让分析的过程更简单直观,让分析的结果更简洁清楚,从而让更多的人可以利用复杂的分析方法来洞察数据,让更多的人可以利用数据分析的结果指导和帮助自己的工作。

如上所述,数据分析的可视化,既体现在通过图形的方式清晰有效地表达和传递信息,也体现在帮助理解和分析复杂的数据。例如,通过数据可视化分析,我们可以将一个包含多个维度信息的数据通过图形化操作界面方便地转化成为用户可以直观查看,并且可以快速解读的图形,这样数据当中蕴含的信息才可以被快速直观地理解,进而使用户可以基于数据中的信息进行有效的决策。

接下来我们通过一个具体的例子展现可视化在数据分析中的作用。首先查看下面的数据集,该数据集有11个观测和8个变量,见图1-1。

图1-1 数据集列表

对数据的描述性统计量进行计算显示,数据中x1, x2, x3, x4的平均值均为54, y1, y2, y3, y4的平均值均为37.5,同时x1, x2, x3, x4的方差均为396,而y1, y2, y3, y4的方差也很接近,在103左右(如图1-2所示)。

图1-2 数据集变量描述统计量

通过计算数据集当中4对变量(x1, y1),(x2, y2),(x3, y3),(x4, y4)的相关性,发现相关系数均为0.816。

如果只对数据集当中4对变量的均值、方差以及相关性计算数值,而不进行数据可视化分析,除非分析者具备比较全面的统计学知识和思维习惯,否则也许会得出这样的结论:4对变量的关系是一样的。可是当我们尝试将4对变量分别进行可视化分析,用数据集当中的11个观测生成散点图时,我们就会得到图1-3所示的结果。

图1-3 变量关系可视化展现

这时候,我们不难发现4对变量之间的关系存在较大差异。也就是说虽然4对变量在均值、方差、相关性上都一致,但是可视化分析显示了它们各自之间的特殊关系。可以看到在(x3, y3)和(x4, y4)的散点图中显著存在的离群值,同时(x2, y2)的关系不是简单的线性关系。这个例子简单印证了数据可视化分析在揭示数据之间隐藏关系方面所具有的重要作用。一般来说,数据可视化分析的益处可以归纳为以下几个方面:

数据可视化分析使得数据中所蕴含的信息更直观,更容易被理解,同时数据可视化分析还可以发现数据之间隐藏的关系。

数据可视化分析使得数据分析的门槛降低,业务人员可以通过可视化分析界面去获取数据,探索数据,进行数据分析。

数据可视化分析可以让用户更容易和数据进行交互,数据可视化分析赋予了业务人员新的“语言”,使他们可以更有力地利用数据去表达观点。