大数据悖论,空想的“主义”与“宗教”
未来似乎是数据的世界,但是,我们发现,大数据存在重大的缺陷。
一条大河将一座城市分为南、北两大城区,河上有三座大桥,分别为一桥、二桥和三桥。在这座城市内,所有车辆的运行状况都被适时跟踪与联网,即任何一辆车任何时候在哪儿、将去哪儿、行走的线路、方向与速度等数据都被及时传送到该城市的交通管控中心,人们可以随时知晓所有车辆总体、局部和个别的运行状况。这一现象和技术被称为基于大数据的智能交通。早期,由于数据消费价格过高,只有50辆车安装了“车况显示器”,即能随时分享到这一智能交通的大数据,车主甲便是其中一位。某日,车主甲想从城南前往城北,查看了一下数据,正在前往一桥的车辆有600辆,去二桥的有400辆,去三桥的有100辆,于是他便将车开往三桥,毫无拥堵地到达了城北,只用了18分钟;而没有安装“车况显示器”的车主乙却开往了一桥,结果堵了1.5小时的车(堵在路上,想掉头都难)。
在如此拥挤的城市里,这50位车主随时过桥如入无人之境,他们兴奋而高呼“大数据太神奇了!”后来,随着技术的改进和消费价格的降低,“车况显示器”开始逐步普及。这之后,很多车主渐渐发觉“车辆适时数据”已经不太好用,甚至在添乱了。
某天,车主甲想过桥,看了一下车况数据:正往一桥去的有600辆车,往二桥去的有400辆,往三桥去的有100辆,于是他将车开向了三桥;走了不到2分钟,车况即时播报,现在正朝三桥去的车辆增至300辆,一桥下降到200辆,他赶紧掉头向一桥而去;又过了2分钟,车况再显示,一桥车辆突增至400两,二桥车辆下降到180辆,他又掉头奔向二桥;刚过1分钟,车况又显示,二桥车辆突增至320辆……车主甲像中了魔咒一样,彻底崩溃了,只得气急败坏地把车停到了路边。
为何会出现这种情况呢?这是因为大家都同时知道整座城市的适时车况,发现哪座桥车辆少,就有很多人同时涌向那座桥,就像房价涨势不断时,总有很多人跟风不断买进,某只股票正在暴跌时,总有很多人不停地跟风抛单一样。如此及时地反反复复,结果大家都被人为地拖入了“不知所措”的尴尬境地,反而引发了整座城市更大的混乱与无序。
于是,一些人开始不再使用“车况显示器”了,从此之后,似乎城市反而变得不再那么拥挤了。这又是为什么呢?一是因为随着使用大数据的人减少了,数据优势渐渐又回来了;二是不再有更多的人被数据“适时”牵引,适时推高局部的“拥挤浪潮”,其“反向作用”的放大效应被弱化了。
这一特别现象,本书称为“大数据悖论”。即当大数据被少数人掌握和使用时,能产生神奇的效用,但是,当多数参与者都知晓并使用后,其效用将大打折扣,甚至引发反向的破坏作用。该悖论在鲜有人直接影响的领域不适用,但是,在多人参与并形成竞争关系的任何领域都适用,具有普适性。
如今,正处于少数人、团体掌握和使用大数据的时代,属于大数据初期。这时,大数据确实彰显出了巨大的作用和价值,这是当下的主流。但是,这在未来将会被打破,同时伴随着众人开始介入与使用,在竞争性领域,大数据效用、价值将会下降,有时甚至还会产生反面的破坏作用。
下面介绍大数据悖论不适用的案例。例如,数据显示影星安吉娜·朱莉患乳腺癌的风险高达87%,这一风险无人与她“竞争”,她联想到家族病史,于是才有“切乳手术”的果断与勇敢(一些人用以神话大数据的著名案例);又如,大数据运用的智能家居,未来的你走出办公楼,汽车早已自动开来接你,你还在路上,家中的灯具、空调、热水等设备已经自动启动了,这个“享用”没有外人与你竞争;再如,深度运用了大数据的未来天气预报,预测会变得非常准确,将不再有“预报明天下雨而事实上却是阳光灿烂”的尴尬出现了。这些都是大数据产生奇效并有着重大价值的方面。
大数据悖论适用的例子很多,诸如科研、教学、航空、军备,以及思想、交流与日常生活等都普遍存在,未来更甚。
例如,适时家装大数据,如果只有海尔公司知道你这个月正在家装,其独家定向推荐给你产品,你很可能产生“被关注与尊重”的荣幸,或许就买海尔的电器了。但是,当美菱、美的、格力、长虹、春兰、海信等数十家企业都分享了这一大数据时,便是多人参与并形成了竞争关系。你被这么多企业同时关注,选择太多,不仅让你无从下手,而且很可能还让你产生“被曝光与不堪其扰”的反感,当然,即便你购买了家电,也不可能只钟情于之前的海尔了。又如,你从外地回来,讲着各种新鲜事(独占数据),吸引了很多听众和羡慕的眼光,正在“小炫耀”时,突然来了一帮人,他们都去过那里(数据已被分享了),而且还指出了你的很多错误与误解,你顿时便失去了“小炫耀”的吸引力和资本了。这些都是大数据价值被削减、降低,甚至产生反向破坏作用的方面。
数据实际上是一个很古老的东西。上古时期的结绳记事、以月之盈亏计算岁月,到后来部落内部以猎物、采摘多寡计算贡献,再到历朝历代的土地农田、人口粮食、马匹军队等各类事项都涉及大量的数据。这些数据虽然越来越多、越来越大,但是,人们都未曾冠之以“大”字,是什么事情让“数据”这瓶“老酒”突然焕发了青春并如此时髦起来呢?
当互联网开始进一步向外延伸,并与世上的很多物品连接之后,这些物体开始不停地将适时变化的各类数据传回到互联网并与人开始互动的时候,物联网便诞生了。物联网是一个大奇迹,被认为可能是继互联网之后人类最伟大的技术革命,是这样的吗?(见“互联网将会这样被替代”章节的详解。)
如今,即便是一件物品被人感知到的几天内的各种动态数据,都足以与古代一个王国一年所收集的各类数据相匹敌,那物联网上数以亿计的物品呢?是不是数据大得不得了?于是“大数据”产生了。如此浩如烟海的数据,如何分类提取和有效处理呢?这需要强大的技术设计与运算能力,于是“云计算”产生了。其中的“技术设计”就归属于“算法”。“云计算”需要从海量数据中挖掘有用的信息,于是“数据挖掘”产生了。这些被挖掘出来的有用信息去服务城市,就称为“智慧城市”;去服务交通,就称为“智慧交通”;去服务家庭,就称为“智能家居”;去服务医院,就称为“智能医院”;去服务生活,就称为“智能生活”……于是,智能社会产生了。不过,智能社会真正得以有序、有效运行,中间必须依托一个“桥梁”与工具,那就是“人工智能”。
这就是近几年,诸如“人工智能”“物联网”“大数据”“云计算”“算法”“数据挖掘”和“智能××”这些高大上的时髦名词和概念突然同时冒了出来的原因,原来它们都是“同一条线上拴着的蚂蚱”啊!
注意,万物大数据主要包括人与人、人与物、物与物三者相互作用所产生(制造)的大数据。其中,人与人、人与物之间制造出来的数据,有少部分被感知;物与物之间制造出来的数据是根本无法被感知的。
对于人与人、人与物之间被感知到的那部分很小的数据(相对于万物释放的量来说非常小,但是绝对量却非常大),主要是指在2000年后,因为人类信息交换、信息存储、信息处理三方面能力的大幅增长而产生的数据,这实际上就是我们日常所听到的“大数据”的概念,这是以人为中心的狭义大数据,也是实用性(商业、监控或发展等使用)大数据。据估算,从1986年到2007年这20年间,人们每天可以通过既有信息通道交换的信息数量增长了约217倍,全球信息存储能力增加了约120倍。信息存储、处理等能力的增强为我们利用大数据提供了近乎无限的想象空间。
为何说万物之间所产生的“未被感知”的大数据非常巨大呢?举个简单的例子,种子掉到地上,要与土地、温度、气候、水分、阳光及数以亿计的微生物等适时地相互作用,引发种壳、种肉、胚芽之中各类微量元素、能量与组织、细胞甚至分子之间的相互作用、生化反应等,要制造出数以亿计的“信息”(数据)才能慢慢长出芽来,这是人类感知不到的。
所以,万物的大数据本身就存在,只是现今人们能够感知到更多了。因此,当下概念的“大数据”,实质上就是“感知到的大数据”,这与万物本身所产生的“实际大数据”的概念不同,容量存在天壤之别。
人类社会的发展,大趋势是朝向透明化与共享性的。例如,过去华丽的钟表不仅是地位、身份的象征,更是对时间准确度的奢侈拥有,而平民百姓只能由上层阶级赐予,所以,四五十年之前的众多街镇、城市最中心的位置总有一座极其高大与威严的“钟鼓楼”,而如今手机、电脑甚至很多物件上都无偿地分享了精准的时间。又如,互联网的兴起,过往很多高大上的诸如图文影像剪辑特技、机密资料及很多行业的专有技术渐渐都被低廉地分享给了大众。美国有一位大学生依靠公开发行的资料,居然设计出了一枚原子弹,这还是1976年的事呢!
所以,如今政府、机构和少数公司所收集、掌控的重要的、有着无限价值的大数据,未来大多数(少数不可分享是存在的)都将被低廉或无偿地分享给大众。这种被分享,并非公司、机构等愿意,而是大势所趋下的“精明行为”。
于是,那时候,几乎所有存在竞争因素的领域、行业,大数据悖论的效应都将产生、发酵,数据不仅将变得不再那么重要,而且大数据被普及后,在绝大多数领域其不再被作为“竞争优势”来使用了,这个有点类似于“打印”的普及。如在20年前,大家都在手写文案时,你突然用电脑打印文案,很有优势,而现今,打印文案已经成为“基本常识”和“基本手段”,是一种最起码的习惯了,于是,“打印”失去了比较优势后变得很平常,看起来“不那么重要了”。而且,很多时候还会引发如同前文所述的车主甲过桥一样,最后陷入“无所适从”的境况。
这里的无所适从,有时表现为“知道得越多,越难做出选择”的心理与行为。美国哥伦比亚大学与斯坦福大学曾经共同进行了一项研究:在一家繁华的超市设了两个小吃摊,一个有6种口味的果酱,另一个有24种口味的果酱。结果显示,24种口味的摊位吸引顾客较多:242位经过的客人中,60%的人会停下试吃;而260个经过6种口味摊位的客人中,停下试吃的只有40%。不过,最终的结果却出乎意料:在有6种口味的摊位前停下的顾客至少30%都买了一瓶果酱,而在有24种口味的摊位前,试吃者中只有3%的人购买了果酱。这类情况,现实中很多,几乎普遍存在。
大数据悖论中的“无所适从”在未来所有竞争性领域很多时候还会引发破坏性的作用。这一负面效应,如今看来,几乎是不可避免的。这是为什么呢?
前面已经讲过,社会透明性与共享性将会逐年增强是大趋势,且人造大数据只会越来越多。经反复分析后,我们认为:透明、共享与人造数据这三者趋势的“同向性”是“大数据悖论”产生的重要条件。所以,“大数据悖论”肯定是不可避免的,且会越来越厉害。那么,有没有什么技术能解决这一大问题呢?我们认为,随着人类科技的发展,应该是有的,如从量子科技中去发掘一些技术等。
这样一来,是不是大数据在未来的竞争性领域、行业将彻底失去作用了呢?不是这样的。例如,一帮人用刀打仗,而你一人有枪,你肯定占尽了优势(少数人独享“大数据”),当大家都拿枪时你就不占优势了,而且可能比大家都用刀时死得更快了(大数据悖论的负面效应),但是,如果别人都用枪时,你却不用枪了,那肯定死得极惨(大家都在使用“大数据”,你却不用的后果)。未来,大数据就如该例中的“枪”一样,你将怎样选择呢?当然,枪也只是某种作战的工具,比它厉害的武器还有很多,未来或更甚。
既然数据并不如想象中的那么神圣和伟大,那么,它也仅仅是人类认识自己、认知世界无数不同的方式之一而已。有人把莫扎特小夜曲、经济泡沫、流行疾病,以及诗歌、植物与泥土等万事万物当成不同的数据模式,那么,也可以把这些看成不同信息的集合体,更可以当成是不同能量的存在方式等。这些都不能代表“数据”一定就比其他方式“特别”。
有人把人类看成一个数据处理系统,把个体看成芯片,那么,也完全可以把人类看成一个原子,原子核就是如今以“权力”“财富”为主导的价值观体系,围绕原子核运转的电子就如“金字塔”形的政治、经济、文化等体系,充满原子内腔那无限广阔的“虚空”(或许是暗能量)就是人类个体和自然界的相关物种等。这些都可以展开无数丰富的联想与文学演绎。
被誉为“硅谷天使”的投资界的思想家彼得·蒂尔(Peter Thiel)曾说:“人不是信息(也可理解为数据),而是血肉之躯。我们作为物质性的存在,比作为信息性的存在更重要。所以,世界各地的照片不重要,如何以更廉价的方式到达那里更重要;发明癌症的诊断工具很重要,但是发明癌症的治疗方法更重要。”由于万物皆由原子组成,比起“万物皆为数据构成”的某些推论来说,前者已是“铁定”的事实。所以,上文以原子来演绎人类或许更靠谱,更能靠近实质。即便是这样,也更像一个形象的比喻,谈不上阐明了某种深刻的道理,更谈不上揭示了人类的什么本质,或许仅仅只是盲人摸象而已。
如果有人再用这类“美妙的比喻”与文学演绎的方式来推断数据的未来与未来的人类,那就太离谱了。但是,现实中确实存在很多人,居然还将其当成“真相”来信服,这又是为何呢?
特别说明:一些人将世间万物及其运行都看成了数据与数据流,以此证明人类的创造、发明并没有什么了不起的论断,是不是就像服装节上,有人只盯着所有服饰下那些微小的丝线,说那些“华美的、风格各异的服饰等人类创造与才能展示都算不了什么,一切都只是一堆乱线而已”一样呢?而且还有人说,随着这些数据最后多到人们难以处理与应付时,人类将被取代或被迫退休了。不说这一结论所存在的问题,单说这一逻辑及推理,是偏执呢,还是已经钻进了牛角尖了呢?
实际上,世间万事万物,随时都在产生数以亿万计的“大数据”,现今如此,古代也是如此。前文已经提到,如今的大数据,只是人们感知的能力增强后所获得的“感知数据”,过去人类没有互联网和物联网,对大数据的感知不足,但并不代表它们不存在。而且,古人不去处理或者说没有能力去处理和应付这些数量庞大的数据(从总量上来说,或许并不比如今和未来少多少),似乎也并没有生活得很不自在,更没有被他物替代或被迫退休。
由此,我们认为,如今特别是未来,很多时候,若过分(恰当地相信与使用,有必要也很重要,就像人们如今使用电能一样)相信数据、依赖数据的话,肯定是会出问题的,甚至会丧失一些生存的基本能力,更不用说一些人认为“掌握数据就会让人永生”这样夸张的了。
未来,各类大数据就像当下人们对“精准时间”的拥有一样容易,如不考虑大数据悖论的负面影响,也顶多像如今人们对待分子、电能与信息这类东西一样的态度与“习惯性拥有”。
退一万步来讲,即便未来人类被替代和“退休”,那也与所谓的“数据主义”“数据宗教”没有直接关系,有人太高估大数据了。不过,一些以文学方式演绎、联想出来的美妙故事,确实很吸引人,但是,这些似乎都是事物的表面,远远还未触及事物的实质。