数据之巅:数据的本质与未来
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

导言 你被数据控制了吗?!

“我们不断地利用我们不理解的公式、符号和规则,以使我们能够得到那些我们个人所未掌握的知识之帮助。”——F.A.哈耶克《知识在社会中的利用》,1945年


“最重要的东西是无法衡量的。”

——爱德华兹·戴明


浪漫喜剧电影《我配不上她》中,男主角问自己:“10分的人怎么会喜欢5分的人?”电影围绕着一段爱情故事展开,讲述了一个平凡的机场安检员柯克和从律师变为活动策划人的漂亮女孩莫莉之间发生的事。就人物魅力而言,莫莉绝对是一个“10分”女孩,她美丽、聪慧而富有。而男主角是一个低于平均水平的“5分”男人,他十分瘦弱,只是一个工薪阶层的年轻人。虽然柯克爱上了莫莉,莫莉显然也对他很感兴趣,但他们在相处中却表现得十分笨拙,发生了许多意想不到的事情。就像柯克的朋友说的那样,一个10分的人也许能和8分的人交往,5分的人也可能与7分的人接触,但5分的男人绝对配不上10分的女人。

数学本身并不存在引申的概念,但可见的是其中的差距实在太大。数据的规则就是这么明确。电影中的所有配角,包括柯克和莫莉的家人、好朋友和各自的前任都认为他们俩的恋爱关系不可能维持下去,试图说服两个年轻的恋人放弃彼此。不出所料(但有趣)的是,在接下来的剧情中,两个主角逐渐疏远,互相猜疑。他们之间的交往变得不自然,显而易见的琐碎小事被不断放大,误解也无处不在。两个恋人对此感到困惑。他们不再了解彼此的感受,在关系破裂后重新回到了各自的世界。10分的人和5分的人不可能成为一对幸福的伴侣,至少看起来是这样。当然,在影片的结尾,柯克和莫莉还是重归于好,从此过上了幸福的生活。尽管有一些不太好的事情发生,爱情仍然获得了胜利。两个主角克服了纠结于分数的毛病,选择听从自己的内心。在数学上不可能发生的事,被爱的不理性击败了。爱情喜剧就是这样,因为可预见的狗血结局而落入俗套。

根据英国统计与生物学家罗纳德·费舍尔(Ronald A. Fisher)的观点,统计学是“人类进步的特别方面”,“将其特殊性赋予了二十世纪”。无论我们是否同意这种说法,我们不能否认数据在很大程度上操纵着我们的世界,成为我们社会、经济和政治决策背后的推动力量。正如柯克和莫莉一样,数据影响着我们和我们身边人的行为。我们每天都会进行衡量和比较,不断地通过通用的尺度来评价自己的美貌、智力、机敏和成功。我们会量化所有事物,包括收入、性能力、生活质量和幸福程度。我们的生活被数据包围着。当我们习惯这一切,就不再注意到数据的力量。

我们来看一下一些研究所和私人机构在环境政策、社会福利和治理等不同领域制定的具体指数和指标。我计算了一下,社会科学领域有300多个合计指数,它们来自于数以万计的单项指标,事实上肯定还不止这些。这还不完全包括政府统计部门的那些数据。而且,这种数据是非常不完整的,它只涵盖了一些特定的研究领域,比如我在自己的学术经历中涉及的社会发展和治理,甚至没有纳入由自然科学家、工程师、医生、建筑师和其他“硬”学科代表所产生的数据,而这些数据可能会有无限多。

每个星期,每个月或者每年,世界各地的几百个智库、非政府组织(NGO)和研究中心都会生成一定量的数据来评估经济状况、城市生活质量、企业竞争力、低收入国家的发展速度、教育水平、福利体系中提供的服务、给社会带来破坏的贪污腐败以及无数社会机构的工作等。他们甚至会测量一些明显是“微不足道”的经济方面,比如全球范围内麦当劳巨无霸的比较成本、不同财富得以跨境的便利程度、公司在某个国家获得执照的所需天数、所有可能的国家风险(包括战争、恐怖主义和经济不稳定性)、银行评级、公司和国家债务、旅游竞争力、计算机素养、受教育程度、全球性的饥饿、粮食安全等。

这些数据用来评估发展战略、衡量绩效,为决策提供信息和指导改革。简言之,它们推动了全球治理和国家治理。比如说,绩效指标已经成了分配对外援助和投资的重要标准,于是它得以在很大程度上影响一国的经济水平。这些数据带来的政治、经济影响力也许在私人机构发布的信用评级中得到了最明显的体现。同样,国际货币基金组织(IMF)发布的财政评估数据能单方面强制各国遵从。在许多部门,数据的激增已经模糊了公共和私营机构之间的区别,如政府制定的制度、程序,公司、机构、顾问、审计员和非政府组织制定的数据基准、评级和排名往往会对其进行补充(且经常得以实施)。为了获取数据在政治和经济事件中的影响,并结合公共和私营机构的作用,许多分析师引入了“元治理”(Metagovernance)和“跨国私人治理”(Transnational private governance)等术语。

统计测量在如今有着无限的应用。数据在所有领域都发挥着主导地位。即使是体育运动,也在很大程度上依赖着数据的考量,专家会在电视节目中量化运动员的表现和战术模型。棒球就是一个我们熟知的例子,它的传统和数据紧密相连。现代棒球之父亨利·查德威克(Henry Chadwick)在他1868年出版的《棒球运动:如何学,如何打,如何教》一书中,系统地将统计推断应用于棒球规则,而后,棒球运动很快成了全美国最流行的运动。查德威克曾是一名板球专项记者,他热衷于数据统计,并创造了世界上第一个棒球数据集。他列出了所有比赛的具体细节,包括主要俱乐部击球手的出局、得分、全垒打和三振的次数以及频率。他认为,其中一些统计数据能够反映击球手的真正能力,而另一些则不能。他不赞成对全垒打(所有种类的全垒打)过分“炫耀”,并且强烈建议在计算打击率时将场上失误击打排除在外,因为这显然没有表现出他们的击球技巧。他想利用统计数据来革新这项运动,使之“从二十年前的简单场地练习,变为如今更具男性化和科学性的球类运动”。

棒球运动中数据的力量为2003年的畅销书《魔球:逆境中制胜的智慧》提供了叙事线索,这本书后来还被改编成了一部由布拉德·皮特主演的好莱坞电影。该书聚焦于奥克兰运动家棒球队的经营策略,利用场上数据进行比赛统计分析(即以美国棒球研究协会命名的赛伯计量学来进行统计分析),在预算有限的情况下,组建一支实力强劲的队伍。《魔球:逆境中制胜的智慧》中的核心前提是,棒球界的传统认知经常会忽略一些重要的潜在因素,而它们却成了决定比赛输赢结果的关键。通常用来评价球员能力和确定薪水的因素包括盗垒成功、打者打点、打击率等。它们对于评价一支队伍的成功与否则显得有些过时了。相比之下,严谨的统计分析表明,像上垒率和长打率这样的其他因素才是评判成功更好的指标,虽然对观众来说这些数据并不瞩目。这样的观测结果往往和传统棒球认知并不相同,于是奥克兰运动家棒球队能够以一个相对适中的价格招募到在这些“新”指标上表现优异的球员,因为棒球市场常常低估了他们的价值。

哈佛大学哲学教授迈克尔·桑德尔(Michael Sandel)在《金钱不能买什么》一书中,对奥克兰运动家棒球队系统性采用现代统计模型进行了论述。他认为,这支队伍“把新型量化交易者带给华尔街的东西运用到了棒球比赛中,而这就是利用计算机分析战胜依赖天分和个人经验的老将的能力”。桑德尔通过分析奥克兰运动家棒球队的例子,展现了统计推理和市场之间的深切联系,特别是在量化方法被用于产生更有效的定价机制和在对抗中获得竞争优势的情况中。奥克兰运动家棒球队的战略的确一度获得了成功,在2002年,这支队伍获得了美国联盟的西部冠军。但是,当其他队伍亦步亦趋,雇佣最好的统计人员,比财力不足的竞争对手出更高的价,奥克兰运动家棒球队反而因为它的成功成了受害者。如今,像波士顿红袜队和纽约洋基队这种薪金水平最高的球队,也会经常使用计算机统计模型来制定比赛策略,评估球员价值。而比赛本身也发生了一些改变,因为统计数据的功能已经逐步取代了球员比赛时的本能,比赛本身的激情逐渐被消磨。矛盾的是,“在决定大联盟各球队的比赛胜率方面,金钱渐渐变得更重要,而非相反”。

我们能从棒球比赛中得到这样的启发,在我们的社会和政治生活的所有领域,尽管市场公信力受到了来自全球经济危机的打击,数据的激增还是直接或间接导致了市场势不可当的扩张。这反过来又破坏了公共领域的民主参与和审议功能,毕竟它是人们论述、争辩和推广思想的舞台。

这就是本书想说的内容。接下来的章节将展示数据在人们的生活、经济、国家治理过程中如何被使用和滥用,市场的力量被放大,公众的思想被左右。

第一章将通过引入科学史研究,讨论某些数据如何被纳入决策过程。事实上,统计学的科层化是现代国家的一个典型特征,尤其是自19世纪末以来,公共基础设施不断建成,其成本、收费及税务的计量不断增长。在对数据的统治力进行总体概述后,我们将深入探讨第一个实证案例:信用评级机构和它们对全球治理的影响。

第二章将对评级的历史和评级机构在公共财政治理演进过程中产生的利益冲突进行分析。该章通过详细说明信用评级如何被纳入国家与国际政策,发现将评级纳入几乎所有国家的公共治理领域会导致金融市场中某些部分的强化,损害民主的问责制度。

第三章将着手于如何缓和气候变化的棘手问题,这是全球治理的另一个基本领域。在这一领域,统计数据的不同运用引发了气候学家和所谓的“怀疑论者”之间的冲突,每个阵营都用一组数据来佐证不同(若非相反)的事实。两方阵营会对此做不同程度的处理,并最终通过成本效益分析来选择最佳政策,以缓解工业增长对环境的影响。这些分析通过一系列关键假设和计量经济模型,实现成本和效益的货币化,支持了碳市场、补偿方案以及排污权交易的建立。

第四章通过分析自然资本和生态系统服务价值评估的新方法,深入探讨统计数据与环境治理之间的微妙关系。虽然其中一些方法旨在通过将环境退化的代价纳入评价指标来“纠正”国内生产总值(GDP)的计算,它们却也会鼓励金融市场延伸进入自然界,并对世界生态系统造成潜在的危险。

第五章将着眼于某些类型的衡量标准如何影响发展援助部门和通过强化商业部门的宣传工具进行全球反贫困斗争。这种类似于企业的发展方式不仅仅局限于如今的援助机构对发展中国家的作用力和效果的衡量,还影响到了工业化国家在民主社会、慈善基金会非盈利运作模式的影响下对社会变革的推动。

本书并不否认数据对社会进步的重要性。没有统计数据,政策将只由印象主义考量和修辞论证主导。测量是人类生活的基本组成部分。随意列举几个基本发展领域——我们的教育、医疗保健和住房都依赖于测量。但同时,我们不应轻信数据永远能揭露事实。

在社会领域,统计数据总是由批判性假设推动的,这在做出影响整个社会的决定时,应予以考虑。通常,这些假设由狭义计量经济学驱动,并且会以更全面的考虑作为代价。我们可以计算一对夫妇在一起度过的时间、他们谈论的话题、出门的时间、挣的钱、发生性行为的频率等,然而,这些所有的总和并不等同于爱,就如同柯克和莫莉历经艰难认识到的那样。标准化考试在一些学校中可能是有用的,但它不应该被视为对教育教学的全部估量。也许大多数的考试评估能帮我们找出学生的差距,但其隐藏的东西比揭示的更多。这就是为什么一个健康的社会需要区分开能够测量的领域和不能测量的领域。我们能测量的部分总是有限的。如果把数据推理延伸过度,我们会过分简化一些事实。当这种情况发生,我们的测量工具就比测量的内容更重要。

我们最终希望得到的是我们能测量的东西,而非测量我们想要的东西。否则,学生将只学习与考试相关的东西,夫妻将只关注表达情感的频率而非质量,各种领域的从业者将会被强加于他们的生产力参数所束缚。在其他一些领域,比方说生态治理,各种声称要保护环境的审计员将对自然界进行货币化。而最终,对测量的偏执会导致社会关系和自然世界的商品化。在某种程度上,这就是市场在测量的大数据时代里变得如此强大的原因。作为经济交易的中心,市场更易于测量。它们的概念、原则和功能都非常适合经济和统计分类。

这本书写到了数据在现代治理最关键的领域中如何加强技术统治,数据如何在我们的社会和政治生活中加强市场的控制力。总而言之,书中会介绍数据在减少公众参与和理性辩论中起到的作用,它使我们已经饱受打击的脆弱民主力量变得更加单薄。