第3章 惊奇档案
数字傀儡?——基于大数据的未来思考
文/钱禹坤
感觉日头才刚刚落下,清晨的一缕微光便迎面而来,黑夜只延续了短短的一瞬间。这是一个失眠者的直观感受,阿灿总觉得自己才刚睡下,便被这一道晨辉吵醒。他下意识地将臂膀环抱一旁,落了空。
方才清醒,已是离了婚的男人。
又是难熬的一天,阿灿深知这痛还会延续,可他并不后悔,下决定的是他自己,他依从了数据的结论。人会犯错,数据不会。对此,他深信不疑。
阿灿是这座城市的“数字化城镇”的项目主管之一,负责数据挖掘部分。也就是在项目进行的中段,一周之前,项目底层算法搭建进入了实测阶段,阿灿独自一人留在了开发间,调出了他亲自建模的“人际网络”模型。
实测样例数据,他选择从自己开始,再方便不过。
输入了自己的唯一编码,程序启动,在分布式的大数据集群下,程序只需半分钟便可得出结论:
一张关系网图展开,中间是他自己,网络分支指向了所有与他自己关联密切的人群。再清晰不过的一张网图,因为他也知道,在这个城市里,与自己关联的人群屈指可数,除了妻子,便是项目组为数不多的几名成员。关系图伴随着两组数字徐徐展开,数字分别代表了个人的孤独指数与所关联人群的亲密指数。这都是数据的力量,所有与之相关的消费行为、网络行为、个人轨迹等数据作为基数,经过集群计算,反复机器演练学习,得出结论。
妻子的孤独指数忽然吸引了阿灿的目光,较之上一次测试有了明显的下降,这很不正常。阿灿下意识地选中了妻子的节点,新的网图展开,不禁心头一颤,那个陌生男人的面庞呈现了出来。他不认识这个男人,可他们之间的亲密指数却几何倍增长,远远超过了正常范围。阿灿依然心存侥幸,可当他调取出他自己与这个陌生男人之间的亲密指数时,数据狠狠给了他一巴掌,是0。这意味着什么阿灿再清楚不过,妻子在这个男人与阿灿之间,完美的规避了所有可能的交集,阿灿所及之处这个男人几乎全部避开,无须再调出更多轨迹细节,结论已经明了,这让阿灿浑身都颤抖起来。但阿灿就是阿灿,一个合格的数据工程师,愤怒解决不了任何问题,他选择相信数据:新的算法启动,这是一个更加高级的智能推荐算法,它会给阿灿一个决定,而这个新算法也确实在瞬间便给出了那个决定——“这段婚姻持续的可能为1%”。
这个结论让这段婚姻戛然而止,阿灿以数据为证,一周的时间便了结了一切。他还记得离婚登记处前妻子含泪的目光,写满了怨恨与不舍。可阿灿没有在意,因为他忠诚于他的数据……
很遗憾,一篇科普,我选择以一则故事作为开端,因为阿灿的故事近乎真实,那绝不是一则科幻小品,它就实实在在地存在于我们的现实生活。
有人不禁要问起,数据真的可以做到故事所表达的一切吗?答案是残酷的,当然可以。数字时代并不是悄然来袭,而是汹涌澎湃、踏浪而来。数据技术在短短的几年间增长了数倍。大数据绝不仅仅是一个理念,它已经遍布于我们的周围,无处不在。除非你选择做一名隐士,丢掉智能手机和你的身份、归隐山林,否则,你已经结结实实地为这座城市,充当了一枚数据传感器,智能手机出卖了你的轨迹、出卖了你的行为习惯……就算是没有它的存在,无处不在的物联网传感设备已然遍布于每一座城镇的角落,真正的独立也只能是你头脑里的一则臆想,没有人能躲过智能技术的魔掌。
我们还是回到阿灿的故事吧,孤独指数为何物?人与人之间的亲密度真的可以被量化吗?那就跟随我的步伐,让我带你进入到疯狂的数据空间:
随着现代化技术的发展,人与人之间的物理距离在缩短,而人与人之间的心理距离却是在加大。有关资料显示,大学生孤独感表现得尤为强烈,孤独感已构成大学生心理问题的一个重要方面,会严重影响到学生的学习与生活。我曾有幸参与过这样一个关于国内高校师生的数据挖掘项目的建设,为高效地开展对大学生孤独感群体的心理辅导等相关工作做辅助决策。那么项目中,如何精准的定位学生中的高孤独感群体成为至关重要的一环。
数据挖掘应用从底层的数据选择与筛选开始:
将全校学生每个月的一卡通食堂消费记录、门禁记录、建筑出入记录等包含学生校园生活所有方面的记录进行筛选去噪,并进行有效的重组合并。将缺失严重的数据进行删除,以免干扰。汇总每位同学的背景信息,获得其同班以及同宿舍的同学名单,从而构造全面的学生生活交友圈;
再来看分析方法:
在校园生活中,学生一般结伴出行,因此往往一卡通的消费记录、门禁记录等在时间和地点上是相近的,所以统计在一段时间内一位同学消费或图书馆宿舍的进出的前后与他是同班或者是同宿舍同学的总数量,经过函数处理生成相应的孤独指数。以食堂的吃饭数据为例:对于每一条刷卡记录,找出该记录同一食堂的消费记录,距离该刷卡记录时间最近的前后共N条消费记录(N越小,对于定义两个学生是“不期而遇”的概率越严格,具体的指数N由食堂的平均人流量决定),判断这几条记录中的刷卡学生是否为该学生的舍友同乡或者同学。如果是,可以近似认为该学生并不是单独一个人出来吃饭,而是与同学结伴出行。若学生与他人结伴吃饭的次数占所有的吃饭次数比例越高,则越能表明该学生喜欢与人结伴出行,则孤独感越低;
最后我们来看评分方法:
孤独指数:
将每位同学的同乡同班同宿舍同学食堂结伴次数汇总,再根据食堂刷卡记录得到相应同学就餐总次数,从而获得结伴就餐次数的相应比例K,比例越大,说明就餐过程中有人陪伴的次数和人数更多,再将比例K通过函数形成相应的介于0和1之间食堂孤独指数。同样的计算方法可以用在图书馆,宿舍,体育馆等数据结果上。
这个地方会涉及一个相对烦琐的数学概率公式,我们暂且不表。再来看亲密指数:
从每位同学的就餐记录找出与他经常结伴吃饭的同班或同宿舍同学,并根据不同结伴同学的就餐次数生成相应每位就餐伴侣的亲密度。
亲密度=一起就餐次数/学生总就餐次数。
两个指数描述完,一定会有人提出疑问,之前没有表明的具体实现逻辑算法究竟是什么。我要说的就是,大可不用去关心它,伟大的计算机技术发展至今日,短短的数十行代码便可解决以上所有数学计算,再结合与之相对应的计算机挖掘算法包与A.I.自学习引擎,关系网便可跃然屏幕之上,与阿灿所经历的一致,一所学校的每一位学生孤独指数、亲密度、行为轨迹一目了然,别说找出几个关系网了,就是你要我预测出每一条关系的未来,也依然有疯狂的代码库作为支撑,预测的准确度取决于数据基础的丰满度。
作为一名高校生,也许你会心存侥幸,应该还没有那么多的数据暴露出去。很遗憾,随着物联网技术在这些年的飞速发展,关于你的数据会越来越健全,机器的预测能力也会越来越强大。当然,数据的应用范畴,依然是存在边界的,一条安全红线保障数据的使用安全,就算是我有这个能力,红线依然是不能碰的。孤独指数的应用依然是向善的,它是为了更早地介入每位学生的心理健康问题。想要做到阿灿那样的预测与监控,是完全不被允许的。
但这不禁让我开始思考,道德准则是数据的安全红线,只要严格遵守,就可以得到有效的保障。但是跨越了这个局限呢,放眼整个世界,能够保障这条红线就真的都能不被擅自剪断吗?我不知道,脑子里开始浮现出斯诺登、棱镜门……于是才有了阿灿的故事。
《大数据时代》这本书就曾为我们描述过这样一个经典的案例:
一天一位男性顾客怒气冲冲地来到一家折扣连锁店“塔吉特”。向经理投诉因为该店竟然给他还在读高中的女儿邮寄婴儿服装和孕妇服装的优惠券。但随后这位父亲与女儿进一步沟通发现自己女儿真的已经怀孕了……
这里用到的就是大数据“关联规则+预测推荐”技术。也许数据技术的初衷是好的,但我们不得不提出疑问,在数据与人性之间、在技术与人类该享有的私密之间,如何权衡。当然我们都可以如阿灿一样,去相信数据的能力,它背后的强大技术已经完全可以取代一个人的主观抉择,就像是阿灿认为的那般——人会出错,数据不会。不知不觉间,我们都沦为奴役,在数据的掌控下,按部就班,绝不犯错。但冥冥中似乎又有另一个声音在呼唤,那声音从远处而来,逐步走近,紧跟着幻化成影像,那画面是阿灿妻子,那张哀怨与不舍的面庞。声音就来自于这个出了轨的可怜女人,她嘴中反复念叨着一个数字1%、1%、1%……
是啊,如果阿灿愿意相信数据,可为什么他偏偏去相信了那百分之九十九的可能,而主观地回避了那百分之一的概率。这样的一个疑问看起来很傻,但却是问题的实质,如果数学上的小概率事件是绝无可能,那数字存在的意义又是什么。机器从未给出阿灿一个绝对的定论,那百分之一的可能表达的意义其实更加值得挖掘。
我们与阿灿都忘却了一件事。
这样一个概率的结论,算法背后的根本原因是什么,我们都选择了回避。回到大数据本质去思考,我曾多次在某些公开场合给人们讲过这样一个故事去解释数据的意义:某天我经过一个热闹的路边摊,迎面走来一个人跟我打了个招呼,说好久不见,然后就离开了,这是数据的局部采集,我曾误以为他认错了人。直到第二天,我又再一次经过这里,那个人又出现了,说了同一番话再次离开。然后是第三天,发生了同一件事,数据得到了积累,我终于有了足够的数据基础去计算它背后的意义——我遇到了一个傻子,他每天留在这里对每一个路过的人打招呼。数据在我的大脑中经过了清洗计算,得出本质,这也是最常见的数据提炼的场景,原本无意义的邂逅经过转换变换成知识。可大数据时代来了,我大脑的计算能力得到提升,我开始考虑加入更多的数据,我发现那是一个路边摊,一群喝醉了酒的家伙留在每一天的记忆里,我把他们提炼了出来,再次计算,这回也许是更加精准了,他们是同一群人,同样的醉态、同样的偷偷掩笑……结论忽然不再一样了,我是被某种“玩笑”算计了。
虽然这个例子并不算多真实,但它还是从某种层面上解释了大数据背后的意义:一定要更加全面去思考,大数据引领的不是一种技术,而是一种思维模式,让数据的现象去解释某种因果关系。
所以1%的结论如果背后的数据仅仅是妻子这一次出轨事件,似乎太过于武断了。试问这天下间有多少家庭发生过同类的事件,如果每一次的“出轨”都直接影响了离婚率,这是不是有点儿不符常理了,所以大数据的背后一定还隐藏着阿灿所不愿去提及的更多数据本质的存在。阿灿太过于理性了,这天下间会有更多的阿灿存在,他们愿意相信技术的能力,然后逐渐失去人的本性。这才是1%结论的根本。
阿灿妻子的不舍与怨恨再次浮现脑海,挥之不去,那怨恨也许是对阿灿选择的愤懑,可那不舍又是什么?
1%的概率算是个小概率事件吗?
公元383年,前秦王苻坚率领百万大军挥师南下,东晋谢玄仅带8万“北府兵”应敌,淝水遭遇,却成就了个历史上最经典的“淝水之战”,以少胜多的经典战役。这其中的概率自不必详说。从长远看,淝水之战使得汉族中原文化得以延续,可以说正是淝水之战才保住了中华文化的最核心部分。这让我不禁感叹,但凡要是给科技树胡乱捯饬一把,真难以想象现如今的中国会是什么样子;美洲大陆的发现也是由于哥伦布错误估计了由欧洲向西航行到达印度的距离。对于这位资深的航海家来说,也是一件无心插柳的绝对小概率事件,但这样的小概率事件却直接影响了欧洲乃至整个世界的经济格局;再不济,我们再来看看复仇者联盟的英雄们,艺术工作者们为了给故事一个深远的意义,同样限定了一个小得不能再小的概率——一千四百万分之一,那是正义翻盘的可能,答案我们都已明了,他们做到了。
所以我们也就知道了,阿灿和这个世界上更多如阿灿一样的我们,在技术的时代丢失的究竟是什么,那就是一份勇敢与坚持,人性所独有的那些宝贵的东西……
读到这里,也许有人会关心阿灿最后的结局,但我无法给出,哪怕那是我写出来的故事,我没法预测故事的结局,更无法想象得到技术的终极。也许是我错了,我就像是一件古旧的瓷器,无法接受新时代的召唤,但心中的另一个声音经年不散——数据背后真正的含义是懦弱地沉浮其中,还是应该勇敢地坚守,坚守的是那份我们曾经相信过的那份初心,哪怕,它只有1%的概率。
【责任编辑:艾珂】