区块链与大数据:打造智能经济
上QQ阅读APP看书,第一时间看更新

1.2 大数据的价值

1.2.1 大数据的优点

如前文提到的,通常认为大数据有4V特点:Volume(数据量大)、Velocity(数据输入和处理速度快)、Variety(数据多样性)、Value(数据价值密度低)。除了价值密度低之外,其他三点都可以认为是大数据优于以前数据的方面。

数据量大是大数据最显而易见的特点,但绝不是大数据的全部。正如前一节所述,现代大数据的产生已经不再是专门设计和采样的数据,而是大规模自动采集的各种数据源、传感器和互联网数据。

不过,这样出来的数据不但是海量的和实时的,而且是极度差异化和鱼龙混杂的。毫无疑问,这种数据直接使用的价值比较低,且数据量极为庞大,因此需要经过筛选和处理才有可能发挥巨大的作用。

数据统计分析效率的突破

➢数据量大——对总体的完整描述

在小数据时代,由于成本和手段的限制,只能使用样本作为代表,而这必然意味着会有很多小概率事件无法覆盖。随着总体的逐渐细分,所对应的抽样样本越来越少,最终相应的研究结论在对应层级内的推断误差会越来越大,最终失去其应用价值。这被认为是传统数据分析方法的死穴。

而在大数据时代,由于数据采集入口的自动化,至少在某一领域获得无限接近研究总体的数据量是有可能的。例如,过去想采集全部居民的面部信息是几乎不可能完成的任务,但是在今天则可以做到。通过身份证管理系统、新生儿管理系统、学生证、士兵证、社保、驾驶执照等各种系统,就可以获得几乎覆盖全部居民的标准正面相。这样就不仅可以回答“中国人的典型相貌是怎样的”这样一个问题,还可以进一步地深入回答“上海出生、原籍四川的未婚‘90’后女性,其相貌特征是怎样的”这种高度个性化的问题。只要数据量足够完备,理论上对无限细分之后的层级也能够给出足够高精度的分析结果,这就使分析结论的代表性大大增强了。

➢数据多样性——全方位补齐缺失的核心信息

除了对总体做尽量精确完整的描述之外,大数据还可以全方位地补齐被刻意隐藏起来的、难以直接获取的关键信息,而这类关键信息往往都存在巨大的商业价值或者其他价值(或许因此才会被刻意隐藏)。

能做到这一点是因为大数据的一大特点是多数据源,即数据采集范围不会再限定于指定的那些变量里,而是“漫无目的”地顺便收集各种各样的信息。因为变量之间多少都具有相关性,当某一个核心变量缺失时,只要集中采集了足够多与其相关的变量,就可以通过统计方法将该变量的数据以足够高的精确度估计出来,即使这些采集到的变量和核心变量只是弱相关性。

例如,每个人的收入信息显然属于个人隐私,当无法直接获取该数据时,在大数据时代完全可以通过许多间接变量对其加以推测估算,诸如其居住小区的档次、家庭居住面积、拥有的汽车品牌及价格、使用的手机型号以及手机使用行为、所就职的企业信息和相应职位、所担任的社会职务、拥有的各类会员卡、每年国内外旅行次数及时长等。通过对这些相关信息的不断细分和组合,实际上就可以对其收入范围做到非常精确的推测估算。在某种程度上,大数据的本质就是利用全面的信息来消除不确定性,这种特性是大数据完备性的体现。

更好地对未来进行预测

描述和补齐缺失值只是对现状进行呈现,而大数据的最终价值在于对未来进行预测。可以说,这方面的应用场景是充满想象力的。

例如,在公共安全方面,首先通过历史数据就可以预先得知在哪些节假日的哪些具体时间段,哪些公共场合容易出现人群过多聚集的现象,据此可以提前安排交通管制,调配警力资源进行管理。而当天更可以通过实时采集相应场所人流的手机移动信息,结合流数据技术进行实时分析以直接实现人流监控,并预测可能出现的安全隐患。这个监控过程中也会用到大量的预测技术,如同步监控周边地铁、公交、私家车的流量情况,就可以提前一两个小时预知将来的人流密度,从而充分做到防患于未然。现在节假日的出行拥堵预测、旅游景点人流量预报等,就已经是在朝这个方向努力。而这几年“双11”快递送货速度明显越来越快,背后也都是基于历史大数据分析进行提前仓储配货、提前配置快递人力资源、做到物流最优化所带来的效果。

以大数据为基础进行的预测,小到体育比赛、电影票房、产品寿命,大到交通管理、流行病预测和社会经济发展趋势,不但对行业意义很大,更有巨大的社会效益。人力资源、物质资源、社会资源在大数据预测指导下的优化配置,极大地促进了生产力的发展和社会的进化。而经济效益最明显的方面,毫无疑问是金融领域,无数金融模型和分析都需要大量的大数据信息作为基础。

虽然现在大数据对未来的预测还远非完美,各种不匹配和“黑天鹅”事件还会层出不穷,但已经相当程度上展示了大数据预测在未来发展中的广阔空间。

分析结果可以迅速被投入使用

无论对现状的描述,还是对未来的预测,分析结果都需要能够用于指导实践,才会最终发挥其价值。但是,过去由于组织结构和技术能力的限制,将分析结果反馈至业务层面并产生作用效果所需要的流程非常漫长。

市场营销学有个经典的“啤酒和尿布”案例,即当零售商发现啤酒和尿布之间存在交叉销售行为时,需要重新组织货物的摆放方式,将这两种商品摆放在一起以获得更大的销量。由于它们分属于不同的商品组,将两个整组的商品都放在一起显然不太可能,基本上只能挑选出少量品牌以入口堆头的形式放置,而这又会挤占有限的堆头资源。等讨论出最佳的商品陈列方式并调整完毕,至少也需要好几个工作日。但是在大数据时代,上述“应用-反馈-调整”流程完全有可能被大大缩短。最典型的是电子商务领域,商品浏览页面都会专门设置商品推荐栏,当发现某些商品存在关联销售时,只要用户浏览其中一种商品的页面,就会直接在相应位置显示关联商品的推荐,分析结果几乎在瞬间就可以得到应用。

这样不但可以大大缩短分析结果的应用流程,也可以明显提升结果应用的效率。由于可以补齐缺失的核心信息,并且数据可以精确定位到每个个体,从而可以实现对个体差异化的精确营销。也就是说,即使浏览同一种商品,A用户看到的关联推荐商品将会是基于A用户的属性特征给出的,和B用户看到的会完全不同。通过这种个性化的分析和推荐,用户的体验将会被大幅度提升,而浪费在广告上的那一半无用投资也将会被大大压缩。

1.2.2 大数据的应用价值

一种新的生产要素形式

大数据时代,数据不再仅仅作为生产过程的记载、劳动成果的度量,其本身也成为了一种生产要素,是一种经济资产。

数据代表了对现实的量化与抽象,所以大量的数据自然就给我们带来更多、更全面的观察世界的方式,而新的观察方式可以揭示以前没有发现的特性。由此可见,数据其实更像是一种矿产。在发现了铁的作用后,铁矿的价值才得以实现。同理,当数据的价值被不断发掘之后,自然会有更多制造、挖掘数据的冲动。数据在生产活动中的角色就升级为了生产要素的形式,成为经济资产。

改良:对原有流程的优化

大数据的具体应用也不是一步到位的,在早期主要还是基于已有的生产、生活流程进行优化,并从中寻找新的价值点。以旅游出行为例,诸如携程、booking等网站实际上并没有创造新的旅游方式,它们只是作为一个中间平台,将有旅游需求的客户和出行、住宿、旅行社等资源对接了起来,并收取高额的中介费用。但是,当数据积累到一定程度之后,这些中介网站就可以对客户进行细分,并有针对性地推送定制旅游产品。目前在携程网上由携程自营的旅游套餐所占比例已经越来越高,这一方面更好地满足了客户的需求,同时也提升了携程的利润。

类似的情形也出现在作为C2C中介平台的淘宝网,只是淘宝主要是面向卖家收费,买家用户在这方面的感受不深。

对于企业和产业来说,大数据也会产生深远的影响。例如,RightETA软件综合天气、时间表、历史数据等信息,从根本上消除了飞机到达时间的预测误差,大大降低了机场方面因预测误差产生的成本。这是利用数据对现有运作模式改进带来的效益。因此,由于大量不可控因素的存在,任何没有达到数学最优化的过程都存在用大数据手段进行改进的可能。

突破:创造全新的生产生活模式

大数据资源的重复利用性和高维度特征注定使数据的拥有者迟早会发现数据中的隐含价值,并找到合适的方式将其变现,而这种变现就完全可能创造出全新的生产生活模式。

对于企业来说,当数据积累到一定程度,其对用户和市场也会有新的认识。“饿了么”从外卖订购平台起步,积累了大量的用户饮食信息之后,发现原来可以把菜品供应和原材料供应联系起来,于是就有了给餐厅提供食材的“有菜”平台,进而打通批发、物流、服务等一整套链条。这种做法其实就是依靠对已有客户的深度了解,利用大数据带来的高效率逐步侵占与现有服务相关的上下游产业的模式。可以想象,这种扩张不会仅局限于同一产业的上下游,横向扩展只是时间问题。例如,饮食习惯不健康的人群反而可能对健康产品有更低的抵抗力。对大数据的深度挖掘会揭示其内在的深层含义,进而提供全新的商业机会。

从另一个角度看,电商对传统商业的冲击最开始来自于较低的成本(减少门面等固定开销),但最重要的差异还是因为电商掌握了传统商户无法获得的用户数据,并能依赖数据迅速调整。这个思路甚至可以拓展到原本并不从用户获取数据的企业。例如,文章写作从纸质媒体时代的单向发送到今天点击量的追踪。实际上,如果能对读者阅读时的生理、心理进行测量(如心跳、眼睛焦点的移动、瞳孔放大等),那么未来的文章写作甚至都可能由数据直接产生。

“饿了么”的案例更多体现的还只是拓展企业自身的业务链,而基于大数据的互联网征信则是开创了全新的业务蓝海。在现代社会,个人信用是非常重要的基础信息,但传统的征信方式反馈速度慢、成本高,无法满足互联网金融业务的需求。而基于线上、线下各种维度数据源的互联网征信,将极大地丰富传统征信数据,又具有实时性的特征。基于母公司自身拥有的大量用户行为数据,蚂蚁金服旗下的“芝麻信用”以及腾讯旗下的“腾讯征信”明显拥有起跑线优势。而随着数据的逐渐积累,相应的模型不断迭代,其优势很可能还会变得越来越明显。

颠覆:彻底重塑人类社会

既然大数据测量的参数涉及方方面面,那么这些参数也就可以被视为社会生活的脉搏,综合起来反映的是整个社会的即时运营状态。当对社会状态的把握进化到了对个体的实时了解时,社会模式创新就不可避免地会产生,包括且不限于国家治理模式、企业决策、组织和业务流程及个人生活方式等。

从国家治理规划的角度来说,原本的数据决策来自于对整体的粗放把握,社会数据化后对个体的反应会有较为精准的把握和预测,这对任何公共政策的制定和施行都是很好的辅助。同样,城市规划、医疗、教育等公共服务的提供也都可以做到动态调控,治安、消防、防疫等城市功能也可迈上一个新台阶,在实时和预防方面提高效率。

对于个人而言,大数据也将彻底改变其工作和生活方式。所谓工业4.0,其本质就是自动化和信息化不断融合的过程,就是大数据持续发挥价值的过程,也是用软件重新定义世界的过程。一切都在基于数据被精确地控制当中,人类的大部分体力劳动和脑力劳动都将被机器和人工智能所取代,汽车司机、售货员、检票员等工作将彻底消失,智能生产、智能服务、智能维护将贯穿于整个人类社会,不仅个体的生活将被重塑,传统的产业链也将被彻底打碎重组。例如,手表厂商届时可能会完全基于用户需求定制出每一个产品,而且免费赠送给用户使用。这个表每天贴着你的身体,采集身体的各项数据,这些数据对于保险业务就是个金库,手表厂商可以基于这些数据定制保险业务,那么手表厂商实际上同时也是一个保险公司。

对于人工智能来说,无论其决策机制如何,都必然要依赖数据的输入。下棋的人工智能需要应对的输入数据种类单一,而来自大数据的输入则可能以各种方式出现,必然会大幅提高人工智能的复杂度。如果说之前提到的大数据应用都是基于把相对通用的数据处理方式用在不同的个体身上,那么人工智能则是基于数据的个性而把对数据的处理进一步个性化,这么做最直接的结果就是更加精准的匹配与更高的满意度。随着时间的推移,掌握一切历史和当前数据的人工智能与其服务的用户之间甚至可能会产生一种类似教练与运动员之间的默契,真正进入数据驱动一切的状态。

简而言之,人类社会的一场深刻革命正在到来,现在还只是一个开端。