
2.1.3 数据的背景信息
仰望夜空,满天繁星看上去就像平面上的一个个点(见图2-6)。若感觉不到视觉深度,会觉得星星都离自己一样远,很容易就能把星空直接搬到纸面上,于是星座也就不难想象了,把一个个点连接起来即可。但实际上,不同的星星与你的距离可能相差许多光年。假如你能飞得比星星还远,星座看起来又会是什么样呢?
如果切换到显示实际距离的模式,星星的位置转移了,原先容易辨别的星座也几乎认不出来。从新的视角出发,数据看起来也就不同,这就是背景信息的作用。背景信息可以完全改变一个人对某一个数据集的看法,它能帮助人们确定数据代表什么以及如何解释。在确切了解了数据的含义之后,你的理解会帮你找出有趣的信息,从而带来有价值的可视化效果。

图2-6 星空视图
使用数据而不了解数值本身之外的任何信息,就好比拿断章取义的片段作为文章的主要论点引用一样。这样做或许没有问题,但却可能完全误解说话人的意思。必须首先了解何人、如何、何事、何时、何地以及何因,即元数据,或者说关于数据的数据,然后才能了解数据的本质是什么。
何人(who):“谁搜集了数据”和“数据是关于谁的”同样重要。
如何(how):大致了解怎样获取你感兴趣的数据。如果数据是你搜集的,那一切都好,但如果数据只是从网上获取到的,那就不需要知道每种数据集背后精确的统计模型,但要小心小样本,样本小,误差率就高,也要小心不合适的假设,比如包含不一致或不相关信息的指数或排名等。
何事(what):还要知道自己的数据是关于什么的,应该知道围绕在数字周围的信息是什么。可以跟学科专家交流、阅读论文及相关文件。
何时(when):数据大都以某种方式与时间关联。数据可能是一个时间序列,或者是特定时期的一组快照。不论是哪一种,都必须清楚知道数据是什么时候采集的。由于只能得到旧数据,于是很多人会把旧数据当成现在的数据使用,这是一种常见的错误。事在变,人在变,地点也在变,数据自然也会变。
何地(where):正如事情会随着时间变化一样,它们也会随着城市、地区和国家的不同而变化:例如,不要将来自少数几个国家的数据推及整个世界。同样的道理也适用于数字定位。一些网站的数据能够概括网站用户的行为,但未必适用于物理世界。
为何(why):最后,必须了解搜集数据的原因,通常这是为了检查一下数据是否存在偏颇。有时人们搜集甚至捏造数据只是为了应付某项议程,应当警惕这种情况。
首要任务是竭尽所能地了解自己的数据,这样,数据分析和可视化会因此而增色。可视化通常被认为是一种图形设计或破解计算机科学问题的练习,但最好的作品往往来源于数据。要可视化数据,必须理解数据是什么,它代表了现实世界中的什么,以及应该在什么样的背景信息中解释它。
在不同的粒度上,数据会呈现出不同的形状和大小,并带有不确定性,这意味着总数、平均数和中位数只是数据点的一小部分。数据是曲折的、旋转的,也是波动的、个性化的,甚至是富有诗意的。因此,可以看到多种形式的可视化数据。