1.7 反复移动就会出现U分布
大数据中常见的递降U分布的本质是什么?下面将用图像直观地进行介绍。
首先,我们看一下由30×30(900个)的方格构成的网格图(图1-3)。假设有72,000个小球,我们将其完全随机地放到图中。
图1-3 网格中散布的小球在正态分布和U分布中的差异。本书是用30×30的网格实验进行解说的,但为了清晰起见,我们只扩大展示了其中一部分。并且,要展示所有小球的话会有重叠,所以我们把每10个小球整合为1个小球显示在图中。
如果用电脑模拟实验,那么可以随机生成小球的位置。首先生成水平方向(x)和垂直方向(y)上1~30个随机数,然后把小球放在(x, y)的位置上。这样一来,一个方格中平均会有80个小球,80(个)×30(格)×30(格)=72,000(个)。
这张网格代表了你的1天,每个方格代表1天中的1分钟。网格图中的方格总数是900,假定1天有900分钟(15小时)的活动时间,则方格总数与活动时间相对应。此外,方格中的小球个数代表胳膊1分钟的活动次数。每个方格中平均有80个小球,即假定胳膊1分钟平均活动80次。现实生活中,虽然活动时间和胳膊的平均活动次数会因人和状况的不同而有所变化,但是也会出现1分钟80次的活动次数(即使换一个数字,也不会对以下结果造成影响)。
如图1-3所示,虽然每个方格中的小球数量不同,但是基本平均在80个左右。这一统计分布即为正态分布(专家称之为“泊松分布”,以区别于正态分布,但是两者基本相同,因此本书不作区分)。
通过掷骰子的方法也可以得到基本相同的结果,只不过花些时间罢了。在每个方格中掷23次骰子,得出的点数总和基本以80(准确说是3.5×23=80.5)为中心上下波动。这和刚才的模拟结果相同,呈现正态分布。
现在我们只是随机分配小球,每个方格中的小球不会自主地从一个方格移到另一个方格。接下来,我们在方格之间移动一下小球,看看情况如何。
我们随机选择两个方格,将其中一个方格中的1个小球移到另一个方格中,然后进行反复移动。大家可能觉得,原本就是随机放置的小球,方格也是随机选择的,即使移动小球,结果也不会有所变化。我曾经给很多人出过这道题,所有人的回答都是“结果不会变”。
但是,事实胜于雄辩。请看一下图1-3中位于下面的图。这张图是“反复移动”10万次后的结果。反复移动的次数越多,小球的分布就越趋向“斑点状”。其实,因移动而产生的“斑点状”才是现实社会的大数据中常见的递降U分布。也就是说,我们将小球按照从多到少的顺序,统计其数量分布情况,会发现数据呈现U分布。U分布的制作方法是非常简单的。
与U分布相比,原来的正态分布整齐划一。从结果来看,两者的差异很明显,正态分布是随机的、均匀的,而递降分布是散乱的“斑点状”——比彻底的随机还要散乱。这话听起来有点矛盾,但事实就是如此。其实,基于同一随机数的随机性,产生的是十分均匀、整齐的状态。而U分布中允许出现“不均匀”,是一种更自由的状态。
U分布是将玻尔兹曼分布普遍化的产物,但即使是专门研究物理的人,恐怕也是第一次如此直观地看到玻尔兹曼的空间分布。至少笔者在任何一本统计物理学的书籍上,都没有见过这样的图。翻开统计物理学的书籍就会发现,玻尔兹曼分布公式(以温度的倒数为指数的指数函数公式)随处可见。但是,只有公式的话,我们完全无法想象其空间分布究竟是怎样的。
气体中的分子之间经常相互碰撞,与此同时会交换彼此的能量。这类似于方格之间小球的反复移动,因此我们也就不难理解,分子能量的分布也与U分布相同,是呈递降的玻尔兹曼分布。
从结果来看,递降U分布中,小球集中于少数几个方格中。定量分析的话,在前30%的方格中,小球的数量占总体的70%。我们经常谈到“二八定律”,即前20%中集中了整体的80%。例如,人们经常说20%的员工取得了80%的销售,20%的企业创造了80%的GDP等。虽然这个U分布没有完全集中到20/80这种程度,但也已经相当集中了。
那么,小球的分布呈现斑点状意味着什么?打个比方来说,是方格和方格之间产生了“贫富差距”。分配小球时,自然而然就会产生两种方格:一种是集中了很多小球的富裕方格,另一种是没怎么分到小球的贫穷方格。之所以会产生这种差距,是因为小球在方格和方格之间反复移动。
有趣的是,明明每个方格都是“机会均等”的,小球却集中到了少数特定的方格中。也就是说,即使“机会均等”,产生的结果也不平等。即使是均等地“反复移动”,也会产生不平等的结果。
我们必须记住的是,小球集中到特定的方格中,不是由方格自身的特殊性,比如能力差距等导致的,而仅仅因为均等的反复移动。即使我们不做方格之间存在能力差距这种假设,由于概率问题,还是会导致差距。也就是说,“反复之力”造成了这种“贫富差距”。
说句题外话,从经济贸易出现起,自给自足的人类之间就产生了贫富差距这种原始的模型。
我们往往以为凡事必有因。总是以为富裕的人和不富裕的人之间,在行动方面应该存在差异,然后去探求这一结果背后的原因。但实际上,当发生了很多次反复移动,即使没有确切的原因,其结果分配还是会明显偏向一方。我们必须记住,资源(小球)分配不均绝不是因为能力和努力的差异,而是由“反复移动”产生的统计力量导致的。在现实社会中,不仅有自然产生的分配差距,还存在能力差距,因此贫富差距进一步扩大。
在“反复之力”的作用下,资源分配的差距阐释了人类广范围的行动和社会现象。而将此上升为理论依据的就是U分布。
在此,我们需要考虑一个简单的问题——小球的分配。随机反复移动小球的话,会出现怎样的结果呢?这个问题我问过几十个人,其中很多人是理科博士。然而,让人惊讶的是,这么简单的问题却让他们调动了全部的经验和知识,最终也没能预测到结果。很多人回答,小球的分配还是随机的,没有变化。这个结果明确表明,对于包含“反复运动”的现象,我们的预测能力是何其欠缺。人类有一种强烈的倾向,即总想借助因果关系来认识世界。但是,因果关系这种思考方式,可能并不适合预测多次反复后的结果。