大数据可视分析方法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 多媒体数据的可视探索

2.2.1 文本数据可视化

对文本数据可视化的研究由来已久,早在1992年就出现了字云的可视化形式。作为信息可视化中极为重要的一个研究领域,文本数据可视化长期受到学者们的关注,各式各样的可视化方法相继被提出,其中相当一部分的工作已被证明能有效地加强和促进文本数据的分析。主流的文本可视化技术包括字云、主题河流、桑基图、树形图等。本节内容参考了Nualart等人和Kucher等人的分类方法,根据可视化的数据内容将现有的文本可视化工作分为五类。接下来,我们将详细介绍这五类文本可视化方法。

2.2.1.1 时序主题的可视化

文本数据中往往包含时间属性,比如带有时间戳的新闻记录或者微博记录等。时序文本分析的重点在于分析文档随时间的变化趋势和演变过程,而这种时序上的波动与河流的流动极为相似,由此诞生了一批以河流为隐喻的可视化工作。

主题河流(Theme River)是一种简单的、直观的可视化方法,常用于可视化时序文本数据。如图2-1所示,图中横轴表示时间维度(从左往右),每种颜色都表示一条河流,代表了一种主题的文档。每条河流在垂直方向上的宽度编码了某一时间点上这一主题的文档的数量,宽度越宽,文档数目越多。在垂直方向上所有河流的宽度之和编码了在这一时间点上所有文档的数量。河流上的文字注释是对相应的文档主题的解释。主题河流创新性地将每种主题的文档随时间的演变与总体文档随时间的演变结合到统一可视化视图中。

图2-1 Theme River:时序的文本可视分析

故事线(Storyline)是一种用于描绘社交随时间的动态变化的可视化技术。图2-2中展现的是对电影剧本的可视化。故事线的横轴表示时间,线表示不同的人物,在某时间范围内两条线相邻表示两人存在着某种联系和交互(比如同时在一个场景中出现)。故事线可视化最早是由手绘完成的。由于手绘非常困难,故事线这一可视化技术的实际应用场景十分有限。Tanahashi等人在满足一些美学前提下成功地设计出了自动化生成算法,通过计算机生成Storyline形式的可视化——Story Flow,针对算法速度等问题,提出了一个支持实时可交互的且展现了实体层次关系的故事可视化方法,通过细节层次绘制(LOD)技术解决了大量线条产生的干扰与性能下降问题。

图2-2 Story Flow:对时序文本中的社交动态可视化

2.2.1.2 关键词的可视化

在关键词的可视化中,字云是最具代表性并且被广泛应用的一项可视化技术。字云这一可视化形式被认为是简单、直观且美观的,常被应用于可视化文档集合,广受好评。如图2-3所示,字云中单词的大小编码了单词在文档中的出现频率,并采用了紧密的布局思想,在确保单词与单词之间不存在重叠或遮挡的前提下移动单词,使得所有单词彼此之间尽可能地靠近,提高了空间利用率。此外,单词的颜色也可被用于编码其他信息,比如情感分析的结果等。在紧密布局的前提下,为了进一步提高字云的美观性和可用性,学者们提出了一系列字云布局的改进算法,专注于提高碰撞检测的算法效率,减少视图中多余的空白,改善布局形状。Seifert对这一系列字云的布局方法进行了总结和验证。

图2-3 word cloud:对文档内容进行概括性的总结

字云的一大缺陷是无法保留原文中的上下文背景,忽略了单词与单词之间的语义联系。这会导致语义相近的单词有可能在可视化展现时相距很远,降低了可读性,为人们进行更深层次的分析带来了困难。为此,后续的系列工作对字云进行了多方面的改进。比如说Hassan-Montero为此开发了新的基于语义关联的字云布局算法。在该方法中,Hassan-Montero根据单词共同出现的频率对单词进行聚类,使得联系紧密的单词聚集在一起,从而显示出了字云中单词之间的关系。总的来说,这些工作的重点在于研究如何保留足够多的上下文语义背景并且同时维持字云的简洁与直观性。

字云的另外一个缺点是只能对静态的文本数据进行可视化,无法展现时间维度的信息。随着现代科学技术的发展,用户们每时每刻可能会收集到大量的文本信息。在此场景下,基础的字云可视化难以被直接应用于数据会实时更新的可视分析中,这是因为动态变化的可视化视图会对用户造成严重的认知负担,降低分析效率。因此,如何设计新的字云可视化技术以应对海量实时的分析场景成为了难点。Cui因此就提出了保持上下文的动态字云可视化技术。这项技术采用了基于几何网格的方法和力导向模型对字云进行布局,确保了不同时间点的字云在时序上的语义连贯性和空间稳定性,便于比较不同时间点上内容的异同,并支持对内容进行时序上的跟踪,将字云扩展到时序文本的可视化与可视分析。如图2-4所示,五个字云分别反映了五个不同时间点上的文档内容,上一个时间点的意群[如图2-4(a)中的apple、company和computer]在后面依然得到了保持。

图2-4 context preserving word cloud:扩展到时序文本分析的动态字云可视化,保持了不同时间段之间的上下文背景,有利于进行时序上的比较和跟踪

2.2.1.3 语句/短语的可视化

点线图常被用于语句或短语的可视化,其思想是使用边将相关的节点(文字)相连,展现出文本数据中蕴含的句法结构以辅助分析。Phrase Net首先检测出文本数据中使用过的短语,并根据短语的语法结构建立起单词之间的联系,最终构造出了一个关于单词的短语结构图并可视化出来,如图2-5所示,由边连接的两个节点说明了这两个单词同时出现在一个短语之中。

图2-5 Phrase Net:文本数据中短语结构关系的可视化

字树(word tree)是一种针对句子的可视化方法,具体的构造流程和可视化效果如图2-6所示。字树中每个节点都是句子之间相同的前缀,通过线段连接不同的节点构成完整的句子。和字云类似,字树是一种对文档内容进行概括性总结的可视化形式。相比于字云,字树的优点是利用到了句子结构的信息,极大程度地保持了文档中原有的语义背景,蕴含了更丰富的信息。缺点是可视化形式过于繁杂,当文本内容比较复杂时,字树的深度和广度可以达到数十层,容易给用户造成严重的认知负担。此外,字树在使用时需要提前设定根节点的值,不够灵活,对探索性的文本数据分析造成了限制。

图2-6 word tree:保持句子结构信息的文本可视化

SentenTree是最新的一项可视化工作,目的是对现有的语句可视化技术进行改进。SentenTree力求在简洁性与信息丰富性之间寻求一个平衡,综合字云和字树两种方法各自的优点,既保留了对文本内容的直观的全局概览,也支持用户根据句子结构信息进行全局到局部的层次分析。具体的设计目标包括以下四个方面。

①充分利用字云的优点,使用字体大小编码信息帮助用户建立第一印象。

②在可视化中保留句子结构信息。

③在保证可视化简洁性的同时尽可能地覆盖足够多的文本数据。

④从全局上给用户提供文本内容的总结和概括。

在形式上,SentenTree和字树十分相似,都属于基于点线图的可视化。SentenTree的创新点在于检测出文本数据集中出现的Frequent Sequential pattern,通过去除不影响理解句子结构的单词来保留和简化句子结构信息,在降低可视化的复杂程度的同时完成了对句子结构信息的展示(图2-7)。

图2-7 SentenTree:同时保持数据中主要的句子结构信息和视图的直观性的文本可视化方法

2.2.1.4 文档集合的可视化

基于地图的可视化常被用于展现大规模的文档集(document collection)。与简单的列表化的展示方法相比,基于地图的可视化使用了地图的隐喻,更好地展现出了文档之间的异同和联系。图2-8是两种方法分别对同一文档集合数据的展示,图2-8(a)简单地通过列表的形式展示出部分文档集合,用户通过一一观察每个文档的概要来了解这个文档集合;图2-8(b)则使用了基于地图隐喻的可视化方法展现出了所有的文档,每个色块表示一个文档,文档概要在色块内部,在经过文档聚类后,拥有相似内容的文档在可视化视图上会被聚集到一起并用相同的颜色进行标注。可以看到,相比于简单的列表法,使用了地图隐喻的可视化形式为用户提供了一个浏览和交互的接口,用户可以通过观察文档在平面上的聚集和分散程度了解到文档数据集中文本内容的主题分布。基于地图的可视化成功地利用了用户对地图这一可视化形式所拥有的天然的了解与熟知,使得可视化更具有直观性与吸引性。

图2-8 两种方法分别对同一文档集合数据的展示

2.2.1.5 主题模型的可视化

在文本数据可视分析中,不可避免地会使用基于主题模型的数据处理分析方法对大量的文本数据进行处理,提取出文档的主题内容以简化数据量,降低分析难度。正因为如此,对主题向量进行研究和分析是文本可视化工作中不可或缺的一环。在可视化领域中,基于矩阵的可视化是常用的可视化向量数据的方法。主流的主题模型方法如LDA和NMF都使用了词袋模型(Bag of Word),先对文本数据进行向量化的操作,最后提取出所有的主题,并使用向量进行表示。主题向量中的每一维都代表一个文本数据集中出现过的单词,每一维上的值代表该单词在这个主题中所占的权重。因此,将矩阵的行编码为主题类别,列编码成单词,主题向量中的每个向量值就可以在矩阵中对应的格子(cell)里进行编码。例如我们可以使用格子填充的颜色或亮度来编码向量值的大小。基于矩阵的可视化的优点在于可以轻松地展示大量的主题模型数据,缺点在于不够直观,需要用户对矩阵这一概念有初步的认识。

2.2.2 图像数据可视化

由于图像数据本身的复杂性和图像处理技术的不足,图像可视化技术发展得比较缓慢,目前仍然缺少具有说服力的工作。本节将对图像可视化现状和已有的图像可视化技术进行简单的回顾,接着再按照可视化形式分别展开描述。

针对图像数据,学者们已尝试了各种各样的可视化布局方法,如树状图(treemaps)、节点链接图(node-link diagram)和散点图(scatterplot)等。其中,树状图主要表现了图像级联的分组信息,节点链接图主要表现了图与图之间的网络关系,散点图主要表现了图像集在二维平面的聚集,这些方法都在一定程度上使图像信息的展现更清晰直观,使分析更高效。一部分较为成熟的图像可视化系统成功地利用了这些可视化布局对大量的图片数据进行展示。典型地,PhotoMesa将图片按照时间分类展现在树状图内。PhotoLand借助时间和颜色信息将图片缩略图有意义地拼接在网格内。Krishnamachari等人抽取出了图像的颜色直方图进行层次聚类,通过展现图像集中隐含的树状结构辅助分析。Liu等人首先在大规模图像集合中选择出具有代表性的少数图像,接着在考虑图像彼此之间尽量少的重合和覆盖的条件约束下,根据图像之间的相似性和联系进行布局,通过拼贴生成一副大的拼贴画,对图像数据集进行概括性的总结。Crampes等人专注于分析包含个人信息的社交照片,并使用Hasse图来展现照片之间的关系。

然而,受限于图像识别与描述技术,已有研究中的方法很大程度上忽略了图像的语义信息,而是更多地使用图像的拍摄时间、像素大小、颜色特征等信息。有的方法虽然使用了语义信息帮助分析图像的含义,但是语义信息来源于手动添加的标签和描述文本等附加信息。这些附加信息在许多场景下都是缺失的或者不可靠的。例如发布在社交媒体上的图片,经常会出现一段文字配多张图片或者图文无关的情况。此时若仍然采用附加信息作为图像的语义描述信息,显然是荒谬的。因此,尽管这些方法在一定程度上促进了图像数据的分析,受限于所使用的低层次视觉特征和元信息的稀缺,适合这些方法的应用场景显得十分有限。近年来机器学习尤其是深度学习技术飞速发展,物体检测和图像分类算法的准确率得到了巨大的提升。使用这些自动化算法提取图像中的语义信息可以降低对元信息的依赖,为图像可视化带来了新的契机。比如Yang等人就提取出了图像的特征向量并使用了 MDS(Multidimensional Scaling)投影技术将图像集投影在二维平面,利用自动识别得到的关键词帮助分析和搜索。最新的机器学习技术不仅能检测到图像中的内容,还能检测到这些内容的关系、属性、动作等复杂信息,并针对该图像生成完整的语义描述语句。这在很大程度上能提升现有图像可视化技术的可用性。

Zah􀅡lka和Worring对现有的图像和视频可视化技术做出了总结,根据可视化的布局形式和思想将现有的图像和视频可视化技术分为五种,分别是基础的网格式布局、基于相似度的投影式布局、基于相似度的填充式布局、表格式布局和放射式布局,其中放射性布局主要适用于视频数据可视化。图2-9对每种可视化做出了概念性的展示。本节将详细介绍与图像可视化相关的前四种布局技术。

图2-9 五种图像可视化方法的概念图

2.2.2.1 基础网格式布局

这是目前网络上最常见的图像可视化形式,每张图像的缩略图按网格形状从左往右、从上到下进行布局。用户通过滚动视图完成对图像数据集的浏览,并通过逐一点击放大感兴趣的图像进行进一步的探索和分析。这种可视化方法非常简单直观,但为保证可读性,无法对图像的缩略图进行过度的压缩,只能在有限的空间内可视化出少量的图像,缺少了对大规模图像数据集进行分析的能力。

2.2.2.2 基于相似度的投影式布局

根据图像之间的相似度进行布局是许多图像可视化的基本思想。这类方法会将相似的图像聚集到一起,同时使得不相似的图像之间彼此远离,从而揭露图像数据集中的规律和特征。

投影(Projection)是常见的基于相似度的图像可视化技术。通常为方便进行分析和数据处理,在可视化前会对图像进行向量化,使用高维向量进行表征。简单的图像向量表征包括图像像素和颜色直方图等低层次的视觉特征,复杂的向量表征则通过卷积神经网络(CNN)获取。在通常情况下图像之间的相似度会使用向量表征的欧式距离进行计算,距离越远表示相似度越低。投影是一种将高维数据转化为三维或者二维数据的技术,基于相似度的图像可视化通过使用合适的投影技术对高维的图像进行降维,获取图像在低维空间下的表示,并在低维空间中尽可能地保持图像之间的相似性,最后根据获得的低维坐标对图像进行布局和可视化。如图2-10(a)中所示,靠的越相近的图像之间内容越相似,比如红色花朵的图像大部分都集中在左下角。投影方法的优点是可以在有限的空间内对大规模的图像数据进行可视化,缺点是图像的位置完全由图像内容的相似度决定,有可能会出现很多图像坐标聚集在一起的情况,从而造成严重的遮挡现象,降低了可读性,对空间的利用率也比较低。

图2-10 基于相似度的投影式布局

投影方法的选择会对最后的布局造成巨大的影响。现有的投影技术包括PCA、MDS、SNE和t-SNE等,其中t-SNE是对SNE的改进,加速了算法速度,使得投影大规模数据成为了可能,同时也可以揭示图像数据集在高维空间中的流形结构,在图像可视化领域被认为是最先进和最有效的投影技术。图2-10(b)是使用t-SNE算法对手写数字图片的可视化结果,每种颜色代表一个数字,可以看出t-SNE有着使相似的图像之间相互靠近的能力。

2.2.2.3 基于相似度的填充式布局

基于相似度的填充式布局技术在利用图像相似度的同时也会考虑图像之间的重叠和遮挡问题,是一种空间利用率很高的可视化方法。ImageHive设计了一种基于相似度的填充式布局,布局流程如图2-11所示。在布局前,ImageHive先根据图像的相似性对图像数据集进行聚类操作,将图像划分为不同的类别,并根据图像之间的相似性等关系建立图像间的图结构(graph structure)。可视化的第一步是全局上的布局[图2-11(a)],根据Voronoi tessellation布局算法和计算得到的图结构在空间上进行区域划分,确定每个类别的图像在空间上的区域。第二步是局部上的布局[图2-11(b)],从每个类别的图像中选出少数具有代表性的图像,在避免遮挡图像的主要内容和维持图像相似性关系的约束条件下,在每个划分区域内进行局部性的布局,从而得到最后的可视化结果[图2-11(c)]。

图2-11 ImageHive的布局流程

基于相似度的填充式布局与基础的网格式布局在可视化形式上有着一定的相似性。基于相似度的填充式布局的优点是简单、直观并且可读性较好、空间利用率较高。相比于基础网格布局,基于相似度的填充式布局有选择地使用了具有代表性的图像进行可视化,在方法的可扩展性上有一定的提升,但仍不足以解决大规模图像数据集的可视化问题。

2.2.2.4 表格式布局

表格式布局中表格的行和列表示图像的不同维度的元信息。如图2-12所示,表格中的行(图2-12中的B)表示图像的归属信息,列(图2-12中的A)表示在图像数据集中出现过的物体的信息,颜色的深浅表示物体在该张图像中出现的频率。表格式布局的优点在于支持对图像进行多个维度的分析,缺点在于缺少有效的空间可视化原始图像,没有充分利用图像中包含的视觉信息。

图2-12 表格式的图像可视化布局