魔鬼统计学
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

“坏蛋”是可以分析出来的

谷歌所有超级数据分析的开山鼻祖是其引以为傲的页面评分。在包含“金橘”一词的所有网页中,如果与某个网页相链接的网页较多,谷歌就会为它评定较高的分数。对谷歌来说,指向页面的每个链接都是对于这个网页的某种投票。不是所有投票都具有同等分量。同页面评分较低的网页(没有其他网页与之相链接)相比,重要网页投出的票具有更大的权重。

谷歌发现,页面评分较高的网页更有可能包含用户想要寻找的信息。用户很难操纵自己的页面评分。仅仅创建一系列新网页并让它们链接到你的主页是没有用的,因为只有页面评分比较高的网页发出的链接才会产生影响,而创建一个让其他网站与自己相链接的网页又没有那么容易。

页面评分系统具有网民所说的“社交网络分析”形式。这是“牵连之罪”的典型案例。执法部门也可以将社交网络分析作为法庭工具,用于确认真正的坏蛋。

我本人就做过这种数据挖掘。

几年前,我的手机失窃了。我在互联网上下载了我的手机发出和收到的通话记录。这就是网络分析发挥作用的地方。在我切断通话服务之前,窃贼打了100多通电话。不过,大多数发出和接收的通话只与少数几个电话号码有关。窃贼向一个电话号码呼叫了30多次,这个电话号码也曾多次打到我的手机上。当我拨打这个号码时,语音信箱称,这是杰西卡(Jessica)的手机。通话次数排在第三位的号码是杰西卡母亲的(听到她的女儿曾与失窃电话通话,她很不安)。

不是所有号码都能带来线索。窃贼曾多次呼叫当地天气服务台。不过,当我第五次拨出电话时,对方说他会帮助我找回手机。他的确做到了。几小时后,他在麦当劳停车场把手机还给了我。只要知道坏蛋拨打过的电话号码,你就有可能弄清这个坏蛋是谁。实际上,人们正是以这种方式通过手机记录找到了杀死迈克尔·乔丹父亲的两个凶手。

美国还曾使用这种网络分析方法侦察恐怖分子。据《今日美国》报道,国家安全局从2001年起开始打造一个数据库,包含了2万亿次通话记录。这相当于几千太字节的信息。通过寻找“相关人士”的通话对象,国家安全局也许可以发现恐怖主义网络成员以及这个网络本身的结构。

就像我用电话记录模式确认偷走手机的坏蛋一样,瓦尔迪斯·克雷布斯(Valdis Krebs)对公共信息进行了网络分析,发现9·11劫机事件的所有19名犯人与中情局在袭击前已经知道的2个基地组织成员相隔不到两个电子邮件或通话的距离。当然,事后发现这种模式要容易得多,但对于大概率坏蛋的识别可能足以使统计调查员走上正确的道路。

一个涉及6.4万太字节的问题是,我们能否从某个嫌疑犯入手,根据社交网络模式可靠分析确定即将发生的阴谋?五角大楼不会宣布其数据挖掘承包商——包括我们的朋友天睿——是否取得了成功,这可以理解。不过,我作为法庭经济学家侦查犯罪欺诈的经历使我抱有乐观态度。我相信,超级数据分析可能会为国家安全做出贡献。