1.1.1 什么是可视化
可视化(Visualization)通过将数据转换为图形化表示,帮助用户通过视觉这一有效手段理解和分析数据。例如,Charles Joseph Minard绘制的拿破仑进军莫斯科大败而归的可视化流图[1](如图1-1所示),黄色表示进军莫斯科,黑色表示回程,线条宽度代表士兵数量,下方绘制了温度曲线图。该图直观地呈现了军队的行进情况,以及温度对士兵数量的影响。
视觉是人类感知信息的最主要途径[2],相比于其他人体器官,人眼感知信息的能力最强,人眼对图形化可视符号的感知速度比对数字、文本的感知速度要快多个数量级,利用可视化可以帮助用户更好地传递信息。比如简单的识别数字“3”的例子,如图1-2所示,将“3”用红色表示后,人眼通过视觉感知能一眼快速识别出所有的数字“3”。人的视觉系统是一种并行的系统,可视化可利用这些并行的视觉通道帮助用户提高对数据的认知效率。
数据可视化将抽象的、复杂的、不易理解的数据转换为可感知的、直观的、有意义的图形化表示,从而传达数据中蕴含的信息。可视化不仅仅是把数据转换成图形化表示,更重要的是给用户提供了探索和分析数据的交互手段。表示和交互是可视化的两个主要组成部分,表示是将数据转化为可视化元素呈现给用户,而交互则是给用户提供可操作的手段。可视化通过数据的交互式可视表达,辅助用户从数据中发掘有用信息,提高数据认知,辅助决策[3]。值得注意的是,可视化的目标是辅助用户实现对数据的分析和认知,进而实现对数据规律的洞悉,而不仅仅是所绘制的可视化结果本身[4]。
图1-1 1812—1813年拿破仑进军莫斯科大败而归的历史事件的可视化流图[1]
图1-2 数字“3”的例子
可视化的作用体现在多个方面,从宏观角度来看,可视化主要包括记录信息、分析推理、信息传播与协同三种功能。
1.记录信息
自古以来,人类就有使用图形化方式记录信息的习惯,例如伽利略绘制的关于月亮周期的可视化图,记录了月亮在一定时间内的变化,如图1-3所示。
图1-3 伽利略1616年绘制的月亮周期图[2]
2.分析推理
将数据进行可视化表达可以有效提升数据认知效率,引导用户分析和推理出有效信息。1854年,英国医生John Snow研究伦敦布拉德街区的霍乱,基于对病例数据的分析绘制了一张街区地图,即著名的伦敦“鬼图”(Ghost Map),如图1-4所示。他在地图上标记了水泵的位置并用图符表示病例,发现Broad Street水泵附近的病例明显偏多,从而找到了霍乱暴发的根源在于水源污染。
图1-4 John Snow绘制的“鬼图”[3]
3.信息传播与协同
人从外界获取的信息中,有70%是通过人的视觉感知获得的,面向公众发布和传播信息的有效途径是将数据进行可视化,将重要信息直观、有效地呈现给用户。下面以新冠肺炎疫情数据为例说明可视化在信息传播中的重要性。自2020年新型冠状病毒疫情暴发以来,每天的疫情数据牵动人心,国家及各省市卫健委每天发布各地疫情数据,新闻媒体除了以数据形式发布外,也采用了可视化方式直观地呈现疫情数据,例如大家熟知的疫情地图。此外,北大可视化与可视分析实验室绘制的“疫情方寸间”,用颜色和图像直观地呈现全国各地每日累积确诊数、治愈数和死亡数及其变化情况,如图1-5所示。
图1-5 北大可视化团队绘制的新冠病毒肺炎—疫情方寸间[4]
根据研究的对象和侧重点,可视化一般分为三个主要分支:科学可视化、信息可视化和可视分析学[2]。这三个分支之间并没有明确和清晰的边界。
科学可视化(scientific visualization)是可视化领域发展最早、最成熟的一个跨学科研究与应用领域[5]。科学可视化主要面向化学、气象、航空航天、生物医学等领域中具有空间几何特征的信息,对测量、实验、模拟等获得的数据进行绘制和交互分析。科学可视化的核心在于利用计算机图形学等相关技术逼真化渲染体、面及光源等[6]。根据数据类型,科学可视化主要包括三类:处理医学影像数据的医学可视化,如CT影像的生成;处理三维空间数据的体可视化,如鱼类的三维体结构可视化;处理计算模拟数据的流可视化,如不同时间帧的三维流数据可视化。
信息可视化(information visualization)研究抽象数据的视觉呈现,将复杂的数据信息转化为图形,通过设计相应的交互,向使用者提供分析数据的手段。信息可视化起源于统计图形学,常见的信息可视化图表有折线图、柱状图和饼图等。与科学可视化相比,信息可视化重点研究抽象的非结构化数据[7],例如文本数据或者高维数据(没有明显的空间特征),科学可视化则主要研究已有空间结构的数据(比如展示人体结构的医学可视化数据)。根据数据类型,信息可视化大致分为以下几类:处理层次、网络结构数据的层次与网络可视化,如树图、人与人的社交网络关系、科研论文的引用关系等;处理非结构化文本数据的文本可视化,如基于词频的文字云、基于主题演变的主题流等;处理多变量高维数据的多变量可视化,如平行坐标、散点图、散点矩阵等;处理地理信息数据和时变数据的时空数据可视化。
可视分析学(visual analytics)是一门通过交互式的可视化界面来进行分析和推理的交叉学科[8]。可视分析学通过可视交互界面,将人的知识和经验引入分析流程,帮助用户直观地完成数据分析和推理决策。传统的数据分析方法大多立足于先验知识,在解决一些具体且可预期的任务时有一定的优势,但对一些具有领域特性的数据做自动分析时往往效果不佳。可视分析正是利用人的视觉感知和分析推理能力,将人类智慧与机器智能结合在一起,使人类在分析过程中能够充分发挥独有的优势,人类通过可视化视图(View)进行人机交互,直观且高效地对海量信息进行推理并将其转换为知识。