大数据可视化
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1.2 信息可视化

信息可视化是1989年由斯图尔特卡德(Stuart K. Card)、约克·麦金利(Jock D. Mackinlay)和乔治·罗伯逊(George G. Robertson)提出的。其研究历史最早可以回溯到20世纪90年代,那时图形化界面(简称GUI)刚刚诞生,给人们提供了一个能直接与信息进行交互的平台,科学家们对信息可视化的研究也就由此开始并且持续到今日。

信息可视化就是利用计算机支撑的、交互的、对抽象数据的可视表示,以增强人们对这些抽象信息的认知,是将非空间数据的信息对象的特征值抽取、转换、映射、高度抽象与整合,用图形、图像、动画等方式表示信息对象内容特征和语义的过程。信息对象包括文本、图像、视频和语音等类型,它们的可视化分别采用不同模型方法实现。

1.信息可视化的研究与发展

传统方式的信息可视化是利用视觉设计学和人体感官原理,将图像、色彩、标志等原始视觉信号应用于管理实践中。伴随信息技术、虚拟现实技术、计算机网络等的发展,现代的日常生活中所需要管理和处理的数据远超过传统模式,对信息的时效、准确度要求也逐步提高,因此,现代信息可视化技术主要从以下几个方面展开。

(1)文本信息可视化。在日常生活中,人们所面临的信息绝大多数是文本信息,如微博、电子文档、报纸文章等。通过可视化界面研究文本的信息属性与构成特点,可以快捷地从文档中获取信息。研究对象包括单个文档的可视化和大型文档集合的可视化。

(2)层次信息可视化。操作系统文件目录、文档管理、图书分类、磁盘目录结构、面向对象程序的类之间的继承关系都普遍存在层次信息结构,并且在某些情况下,任意的图都可以转化为层次关系。层次信息可视化能够清晰展示层次结构,同时对关心的属性进行合理显示,易于观察细节信息。浏览过程中良好的人机导航交互机制,能够保持上下文信息,可以有效防止迷航。层次信息的可视化结构最直观的方式就是树形结构,但当结构中的节点或者层次增多时,该结构需要占据大量的可视化空间。

(3)Web信息可视化。Web是一个信息空间,所包含的信息量更是以TB计的。如何最大限度利用Web上所展现出来的信息,成为一个急需解决的问题。Web信息可视化的研究包括网页导航和布局、信息搜索的可视界面,以及网络多节点信息的动态显示与交互控制等,目前该方面的研究主要集中在如何有效地可视化信息空间的网络结构。

(4)可视化数据挖掘。当前的可视化数据挖掘方法分为三类:①由传统的可视化方法组成或者独立于数据挖掘算法;②在对数据挖掘算法进行抽取的过程中,可以利用可视化对模式进行更好地理解;③综合多种可视化方法,用户可以方便地对数据挖掘算法运行过程进行指导、控制。

(5)多维信息可视化。金融分析、地震预测和气象分析等通常需要处理多个数据变量,通过坐标调动、镶嵌,以及多视图处理等手段可以将这些多维数据映射到传统的二维界面或三维空间内,如透视表就实现了大型数据库中多变量数据的便捷浏览和特征辨认。

将信息可视化和科学可视化进行比较可以发现,信息可视化的研究对象是抽象数据集合。科学可视化的研究重点是那些拥有几何性质的科学数据,用接近于现实的方式描绘出来,这些数据在一段时间内通常是比较稳定、不发生改变的,主要涉及计算机图形学,追求图形的质量。虽然信息可视化也要关注如何绘制对象的可视化视觉属性等问题,但其研究重点是如何寻找到合适的视觉隐喻,把抽象、非结构化的数据信息转换为有效的可视化形式,且数据可能会发生变化,如在高纬空间中的非结构化的文本或点。由此可看出,信息可视化的产物要能通过人的各类感官传达到大脑,并使其快速掌握大量的信息,所以它比科学可视化技术要求更高,同时也更注重人的理解能力,更多的是涉及除计算机图形学以外的业务方法、视觉设计、人机交互及商业方法等相关领域。目前,信息可视化所面临的最大挑战是信息爆炸,即“大数据”,要想从海量的数据中获取有用的信息,信息可视化必须借助于机器学习、数据挖掘方法及自然语言处理技术。

2.信息可视化数据分类

信息可视化可分为一维线性数据、二维数据、三维数据、多维数据、时态数据、层次数据和网络数据的可视化7类。在信息可视化中,从原始数据到用户,中间要经历一系列数据变换。数据转换把原始数据映射为数据表;可视化映射把数据表转换为结合了空间基、标记和图形属性的可视化结构。

(1)一维线性数据。以一维线性方式组织的数据,如数据库、文本等。早期处理一维大数据集的方法,一是双焦显示,这种方法为所关注的区域提供了详细的信息,而很少提供上下文区域的信息;二是用大小固定且类似滚动条的空间上显示大量数据项的属性值。

(2)二维数据。二维数据又称平面数据,数据集中的对象具有形状、大小、颜色等特征,如平面布局图、地图和报纸版面布局等。二维数据的可视化方式可以避免语言处理带来的脑力工作,对信息检索和知识挖掘非常有利,在研究和商业领域有着广阔的应用前景。ThemeView是一种对大型文档集合之间的关系进行可视化的工具,它用显示山峰与山谷的自然地形图表示大型文档集合中的各个主题及相关信息的分布情况。

(3)三维数据。信息可视化对三维数据的处理,主要集中在数据对象的体积、表面积、位置、方向、遮挡与导航等方面。采用的技术包括总览法、地标法、透视法、色彩编码法、透明法和多重显示等。目前,三维数据的可视化主要应用在医学影像、建筑CAD、机械设计、科学仿真等领域。

(4)多维数据。多维数据的可视化是将具有 n(3个以上)个属性的数据对象映射为 n 维空间中的标记。主要的任务包括发现模式、集簇、变量之间的关系、偏差和孤立点。多维数据一般通过降维技术映射到二维或三维可视化空间,如使用动态的二维图实现多维数据的缩放、色彩编码、动态查询等功能;如使用三维的分布图,则要注意方向迷失和遮挡给用户认知和操作带来的困难。分层聚类、K-平均(K-means)聚类等方法是常用和有效的多维数据可视化技术。

(5)时态数据。时态数据的特征是所有的数据对象都具有一个生命周期,并且对象之间在时间上会存在叠加的现象。主要的任务包括查找某一时刻及附近时域的信息、周期现象的比较。在项目管理领域,时态数据可视化的代表工具是TimeSearcher,它把多个时间序列或其他线性数据序列结合起来进行分析。时态数据的可视化主要应用在期货市场需求分析、地震预测和生物电信号分析等领域。

(6)层次数据。数据对象的集合呈现树形结构和层次结构,而且每个叶节点都具有一个父节点(根节点除外),节点和节点之间的连接包含着多个属性。Windows操作系统通常采用树形结构来浏览文件,其他文件浏览器也有采用兴趣度树、空间树、双曲线浏览器等可视化方法。近来,一种在给定矩形平面通过填充任意大小树形结构的显示方法——树图,在市场分析、产品目录搜索、农产量监测等领域得到了广泛应用。

(7)当数据关系复杂到难以用树形结构表示时,一般采用网络结构使数据对象连接起来。网络数据集中的节点不受其他与之相连的有限节点的限制(层次节点则不同,它们只有一个父节点),且没有内在的等级结构,两个节点之间可以有多种联系,节点及节点间的关系可以有多个属性。拓扑结构包括无环、栅格、直接与间接连通、有原点、无原点等形式。用户在查看网络节点和连接等信息外,一般还会考虑节点之间最短路径或最小费用等问题。目前,网状数据可视化在GIS地理信息系统和互联网可视化等领域已经取得了一定进展,但由于数据结构比较复杂,因此网状数据可视化的技术还不完善。

3.信息可视化技术

根据上节中的内容,信息可视化的数据分为7类,不同的数据所涉及的可视化技术也是不尽相同。下面的一些数据可用来进行可视化技术研究。

1)多维数据可视化技术

针对多维数据,采用传统二维图表方式难以有效满足现代化的大量、复杂、多维度的信息需求。多维数据的可视化是当前研究的热点之一。本书主要讨论有代表性的几种方法。

(1)平行坐标系(见图2-7)。1980年,Inselberg提出的平行坐标系(Parallel coordinates)是经典的多维数据可视化技术之一。平行坐标系使用平行的竖直轴线来代表维度,通过在轴上刻画多维数据的数值,并用折线连接某一数据项在所有轴上的坐标点,从而在二维空间内展示多维数据。

图2-7 平行坐标系

平行坐标系方法能够对多维数据进行简便、清晰的展示。由于其经典性和方便性,许多研究人员将平行坐标系法应用于数据挖掘、可视化、生产过程自动化、决策支持、联机分析处理和其他一些领域并获得成功。1990年,Inselberg首先将平行坐标系用于解决可视化问题,此后平行坐标系发展出了很多改进技术,如在不同层次上的平行坐标显示,用曲线代替直线增强可视化效果等。盛秀杰等使用平行坐标中的坐标轴和平行折线的可视化渲染方法提出了一种新的颜色渐变渲染方案。Siirtola提出利用数据子集的相关系数的平均数的方法动态画出折线。Wong等使用小波逼近方法建立的涂刷工具能够展示不同分辨力下的线条构成。平行坐标可以进一步扩展到三维可视化的方式以展示高维动态的数据。很多专家也把平行坐标系和其他方法结合。SpringView整合了平行坐标系法和放射坐标系法来解决多维数据集。Parallel Glyphs将各个坐标轴扩展到星形图的空间中以方便进行数据对比和提供交互(见图2-8)。

图2-8 平行坐标和星形图的结合

(2)散点图。散点图是指在回归分析中一组数据在平面直角坐标系中的分布图,表示因变量随自变量而变化的大致趋势。散点图将序列显示为一组点,值由点在图表中的位置表示,类别由图表中的不同标记表示。散点图通常用于比较不同类别的聚合数据,选择合适的函数对数据点进行拟合,分析数据的分布和变化趋势。

散点图矩阵是散点图的高维扩展,它在一定程度上克服了在平面上展示高维数据的困难,在展示多维数据的两两关系时有着不可替代的作用(见图2-9)。散点图矩阵通过二维坐标系中的一组点来展示两个变量之间的关系,散点图矩阵就是将多维数据中的各个维度两两组合绘制成一系列的按规律排列的散点图。散点图矩阵也经常和其他可视化方法结合来增强显示多维数据效果,基于散点图矩阵的开发的连续的散点图可以对海量数据进行可视化展示,Craig等研究了传统的时间序列图和散点图的互补关系,Schmid等整合了散点图矩阵、平行坐标系、Andrews曲线来展示多维数据。散点图矩阵的优点主要是能快速发现成对变量之间的关系;缺点是当数据维度太大时,屏幕的大小会限制显示矩阵元素的数量,需要结合交互技术来实现用户对可视化结果的观察。

图2-9 鸢尾花数据散点图矩阵

(3)Andrews曲线法。Andrews曲线法使用二维坐标系展示可视化结果,将多维数据的每一数据项通过一个周期函数映射到二维坐标系中的一条曲线上,通过对曲线的观察,用户能够感知数据的聚类等状况。图2-10所示为PCR扩增曲线。

图2-10 PCR扩增曲线

2)层次数据的可视化

层次数据是常见的数据类型,可以用来描述生物属种、组织结构、家庭族谱、社会网络等具有等级或层级关系的对象。层次数据的可视化方法主要包括节点连接图和树图两种方式。

(1)节点连接图(见图2-11)。节点连接图是将层次数据组织成一个类似于树的节点的连接结构,画出节点和连线来代表数据项和它们之间的关系,节点通常是一些小点从而难以包含更多的信息。节点连接图能清晰直观地展现层次数据内的关系,但是分支间的空白会浪费展示空间,当数据量较大时,分支很快就会拥挤交织在一起,变得混乱不堪,造成视觉混淆。

图2-11 节点连接

(2)树图。树图最早由Johnson等在1991年提出。树图采用一系列的嵌套环、块展示层次数据,可在有限的空间内展示大量数据,但无法展示节点的细节内容(见图2-12)。为了能展示更多的节点内容,一些基于“焦点+上下文”技术的交互方法被开发出来,包括“鱼眼”技术、几何变形、语义缩放、远离焦点的节点聚类技术等。

图2-12 树图

3)网络数据可视化

网络数据具有网状结构,如互联网网络、社交网络、合作网络及传播网络等。自动布局算法是网络数据可视化的核心,目前主要有3类:一是按仿真物理学中力的概念绘制网状图,即力导向布局(Force-directed layout);二是分层布局(Hierarchical layout);三是网格布局(Grid layout)。很多研究是基于以上布局算法的应用或者是对以上算法的进一步优化。在网络数据的可视化中,当数据节点的连接很多时,容易产生边交叉现象,导致视觉混淆。解决边交叉现象的集束边(Edge bundle)技术可以分为力导向的集束边技术、层次集束边技术、基于几何的边聚类技术、多层凝聚集束边技术和基于网格的方法等。

4.信息可视化的基本过程及特征

在CARD等人提出的信息可视化模型(见图2-13)中,信息可视化过程可以划分为3个数据转换的过程:原始数据到数据表的转换、数据表到可视化结构的转换、可视化结构到视图的转换。

图2-13 CARD信息可视化模型

其中,数据预处理是指将采集来的信息进行预处理和加工,使其便于理解,易于被输入显示可视化模块。预处理内容包括数据格式及其标准化、数据变换技术、数据压缩和解压缩等。有些数据也需要做异常值检出、聚类、降维等处理。而绘制的功能是完成数据到几何图像的转换。一个完整的图形描述需要在考虑用户需求的基础上综合应用各类可视化绘制技术。显示和交互显示的功能是指将绘制模块生成的图像数据,按用户指定的要求进行输出。除了完成图像信息输出功能外,还需要把用户的反馈信息传送到软件层中,以实现人机交互。针对可视化的主要任务,即总览(Overview)、缩放(Zoom)、过滤(Filter)、详细查看(Details-on-demand)、关联(Relate)等,交互技术主要包括动态过滤、全局+详细、平移+缩放、焦点+上下文及变形、多视图关联协调等技术。

而现在的信息可视化完整过程通常是指信息组织与调度、静态可视化、过程模拟和探索性分析等4个过程。其中信息组织与调度主要解决适合于海量信息的简化模式,快速调度;静态可视化主要解决运用符号系统反映信息的数量特征、质量特征和关系特征;过程模拟主要对信息处理、维护、分析使用过程提供可视化引导、跟踪、监控手段;探索性分析则通过交互式建模分析可视化、多维分析可视化为知识信息提供可视化技术支持。

信息可视化技术的核心是为用户提供直观的、可交互可视化的信息环境。与一般科学计算可视化相比,信息可视化具有以下主要特点:

(1)位置特征。所有可视对象和现象都与地理位置紧密相关。

(2)直观形象性。信息可视化是通过生动、直观、形象的图形、图像、影像、声音、模型等方式,把各种信息展示给用户,以便进行图形图像分析和信息查询。

(3)多源数据的采集和集成性。运用信息可视化技术,可方便地接收与采集不同类型、不同介质和不同格式的数据。不论它们被收集时的形式是图形、图像、文字、数字还是视频,也不论它们的数据格式是否一致,都能用统一的数据库进行管理,从而为多源数据的综合分析提供便利。

(4)交互探讨性。在大量数据中,交互方式有利于视觉思维。在探讨分析的过程中,可以灵活检索数据,可以改变信息交互方式。多源信息集成在一起,并用统一数据库进行管理,同时具有较强的空间分析与查询功能,因此用户既可以方便地调整可视化变量(如轴系、颜色、高度、阴影、视角、分辨力等场景参数),获得信息不同表现效果,又可以方便地用交互方式对多源信息进行对比、综合、分析,从中获得新的规律,以利于规划、决策与经营。

(5)信息的动态性。有关信息不仅仅被表现为空间信息,并且具有动态性。随着计算机技术的发展和时间维的加入,信息的动态表示和动态检索成为可能。

(6)信息载体的多样性。随着多媒体技术的发展,表达信息的方式不再局限于表格、图形和文件,而拓展到图像、声音、动画、视频图像、三维仿真乃至虚拟现实等。

5.信息可视化应用领域

1)可视化数据挖掘

信息可视化不仅用图像来显示多维的非空间数据,使用户加深对数据含义的理解,而且用形象、直观的图像指引检索过程,加快检索速度。在信息可视化中,显示的对象主要是多维的标量数据,目前的研究重点是设计和选择什么样的显示方式才能便于用户了解庞大的多维数据及它们相互之间的关系,其中更多地涉及心理学、机交互技术等问题。可视化数据挖掘是一个使用可视化技术在大量的数据中发现潜在有用知识的过程,它可以将许多数据同时显示在屏幕上,并将每一个数据值映射成屏幕的一个像素。像素的颜色对应于每个数据值或是数据值与给定查询值之间的差值。

2)可视化技术在空间信息挖掘中的应用

空间数据挖掘通常以地图应用为主,通常表现为地理现象的分布规律、聚类规律、发展演变规律、相连共生的关联规则等;而应用数据挖掘在GIS遥感影像解译中,由于同物异谱和同谱异物的存在,单纯依靠光谱值知识的统计分类和特征提取难以满足要求,如果能将空间目标的关联知识考虑进去,可以大大提高自动化和准确程度。

3)KM可视化

(1)知识管理体系。“知识工作者”(Knowledge worker)最主要的任务之一,就是如何在做决策前已具备或收集到所需知识。而如何利用网络资源和信息技术手段,系统地搜寻知识、整理知识、组织知识,并最终有效地加以利用,则是知识。

(2)几种已有的知识可视化工具。一是概念图(Concept Map)。概念图是康乃尔大学的诺瓦克博士根据奥苏贝尔的有意义学习理论提出的一种教学技术。它通常将某一主题的有关概念置于圆圈或方框之中,然后用连线将相关的概念和命题连接,连线上标明两个概念之间的意义关系。二是思维导图(Mind Map)。思维导图最初是20世纪60年代由英国人托尼·巴赞创造的一种笔记方法。托尼·巴赞认为思维导图是对发散性思维的表达,因此也是人类思维的自然功能,是打开大脑潜能的万能钥匙,可以应用于生活的各个方面。三是认知地图(Coguitive Map)。认知地图也称为因果图(Causal Map),是由Ackerman和Eden提出的,它将“想法”作为节点,并将其相互连接起来。

(3)可视化知识建模语言(Knowledge Modeling Language, KML)。如何在浩瀚信息海洋中获取自己所需的知识,进而进行有效的管理并最终利用知识创造价值,是知识管理的重要目标。而如何构建良好的知识模型来存储和表达所需的知识,则是知识创造价值过程的关键因素。

4)信息可视化商品

目前,信息可视化技术的产品化、商品化趋势已经显露出来。总的来说,信息可视化技术商品化有两种模式:一种是将信息可视化技术转化为信息可视化产品,如treemap、theBrain、IN—SPIRETM等;另一种是信息可视化技术与现有软件结合,即信息可视化技术被其他软件采纳,作为其他软件的构件而存在,可视化技术在商务智能中的应用就属于这种模式。