大数据基础与应用
上QQ阅读APP看书,第一时间看更新

1.4 大数据可视化

数据可视化是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式提取出来的信息,包括相应信息单位的各种属性和变量。本节将对数据可视化的概念、数据可视化方法、数据可视化分类等方面做简要介绍。

1.4.1 什么是数据可视化

数据可视化旨在借助于图形化手段,清晰有效地传达与沟通信息。但是这不意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。

数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。

1.4.2 数据可视化的工具与方法

1.常见的数据可视化工具

(1)Google Charts

谷歌的产品在数据行业是众所周知的,谷歌图表也是一个容易上手的工具,特别是对于初次使用的用户。

例1-1Google Charts实例

在Google Charts中输入如下代码:

运行以上程序代码后,得到如图1-3所示的图形。

图1-3 Geochat生成的图形报表

(2)Datawrapper

这是一个在线工具,只要在线上传资料和数据,选择需要的可视化形式,它便可以帮助你创建交互式数据可视化。图1-4为使用Datawrapper生成的可视化图表。

(3)RAW

RAW的好处包括它拥有大量现成的类型,使用户可以清晰、便捷地展现信息。整个使用过程相当简单:从一个电子表格或Web页面中复制数据,然后选择数据可视化类型,最后拖动所要分析的数据到预先定义的分析类别中即可完成数据可视化。该平台是开源的,所以可以提供自定义布局,或者使用其他的设计,图1-5为Raw形成的数据可视化。

图1-4 Datawrapper生成的数据可视化

图1-5 Raw的数据可视化

(4)Infogram

Infogram是另一款适合新手的工具。它可以链接可视化信息图表与实时大数据。即使要在浩如星海的图表、地图、视频等可视化模板中选择想要的一款,也只需几个简单步骤便可实现。图1-6为Infogram的操作界面。

2.常见的数据可视化方法

(1)2Darea

这种方法使用地理空间数据可视化技术,往往与事件在某块特定区域的位置相关。2Darea数据可视化的一个例子包括点分布图,该图可以显示某个区域中的犯罪等信息。

(2)Temporal

时间可视化是以线性方式展现数据。时间数据可视化的关键是有一个开始和一个结束的时间点。时间可视化的例子可以是一个连接的散点图,它可以展现诸如某一区域的温度等信息。

图1-6 Infogram的操作界面

(3)Multidimensional

可以通过多维方法将数据在两个或多个维度上展现。这是最常用的方法之一。多维可视化的一个例子是饼图,它可以展示如政府支出之类的信息。

(4)Hierarchical

层次法被用于呈现多组数据。这些数据的可视化通常在大群体内嵌套小的群体。层次化数据可视化的例子可以是一个树图,它可以展示语言组团等信息。

(5)Network

数据也能以相互关联的网络形式被展现。这是另一种展现大量数据的常见方法。网络数据可视化方法的一个例子可以是冲积关系图,它可以展示如医疗行业的变化等信息。

1.4.3 数据可视化的建模

可视化建模(Visual Modeling)是利用围绕现实想法组织模型的一种思考问题的方法。模型对于了解问题、与项目相关的每个人(如客户、行业专家、分析师、设计者等)沟通、模仿企业流程、准备文档、设计程序和数据库来说都是有用的。建模促进了对需求的更好的理解、更清晰的设计、更加容易维护的系统。可视化建模就是以图形的方式描述所开发的系统的过程。可视化建模允许你提出一个复杂问题的必要细节,并过滤不必要的细节。它也提供了一种从不同的视角观察被开发系统的机制。

1.4.4 数据可视化分类

数据可视化分为:科学可视化、信息可视化、可视分析学这三个主要分支。

(1)科学可视化(Science Visualization)

面向的领域主要是自然科学,如物理、化学、气象气候、航空航天、医学、生物学等各个学科,这些学科需要对数据和模型进行解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。

(2)信息可视化(Information Visualization)

信息可视化处理的对象是抽象的、非结构化数据集(如文本、图表、层次结构、地图、软件、复杂系统等)。与科学可视化相比,信息可视化更关注抽象、高维数据。此类数据通常不具有空间中位置的属性,因此要根据特定数据分析的需求,决定数据元素在空间中的布局。因为信息可视化的方法与所针对的数据类型紧密相关,所以通常按数据类型分为如下几类。

● 时空数据可视分析。

● 层次与网络结构数据可视化。

● 文本和跨媒体数据可视化。

● 多变量数据可视化。

(3)可视分析学(Visual Analytics)

可视分析学,被定义为一门以可视交互界面为基础的分析推理科学;综合了图形学、数据挖掘和人机交互等技术,以可视交互界面为通道,将人的感知和认知能力以可视的方式融入数据处理过程,形成人脑智能和机器智能优势互补与相互提升,建立螺旋式信息交流与知识提炼途径,完成有效的分析推理和决策;包含数据分析、交互、可视化。