白话大数据与机器学习
上QQ阅读APP看书,第一时间看更新

1.2 对大数据产业的理解

“大数据”这个人造词汇其实很容易产生不少误解,尤其是这个“大”字,很容易让人感觉,数据量必须大,而且特别大,越大越能形成产业,也越有价值。其实这真的是“大数据”给人带来的误导。大数据产业的存在其实和其他产业并无二致,本身是为了给其他产业提供服务。

做个假设,假如现在给石油产业冠以“大石油”产业的名字,那么会影响石油行业本身对其他行业的服务样态吗?应该不会。

在“大石油”产业里,同样有人从事着这样的工作内容:石油勘探、石油开采、石油运输、石油提炼、石油产品销售等多个细分领域和环节。

最后提供给社会的是由大量人工和智慧凝结在石油产品上的服务,而这些服务极大地方便并满足了社会各领域对于工业能源、建筑材料、食品包装、服装面料、模型器具、日杂用品等多种制造与使用的需求。试想如果没有石油,也就没有廉价汽车与航空动力,尤其是没有乙烯等重要化工原材料的来源,是否存在塑料这样一种廉价的工业制造材料都很难说,那么各个产业则需要用其他造价更为高昂的材料对其进行取代,更不用提家用的天然气和液化石油气了,人们只能再去寻找其他能源:要么不洁净——如柴火和煤炭,要么价格昂贵——如氢气。人们之所以选用石油作为整个产业链的根源,并把它发展成一个完整的产业也是由于这样的原因,大概这个逻辑是比较容易理解的。

类比一下“大数据”产业,数据收集、数据传输、数据存储、数据建模、数据分析、数据交易贯穿了大数据产业的完整产业链。在这个产业链里同样蕴含着和“大石油”一样的东西,这个东西是什么?

数据通过各种软件进行收集,通过网络进行传输,通过云数据中心进行存储,通过数据科学家或者行业专家进行建模和加工,最后数据分析得到的是一种知识,是一种人们通过数据洞悉世界的能力。数据之间本来彼此错综复杂的潜在关系会使得大量孤立而多来源的数据同时出现在一个舞台后显得更为有趣,大量看似不相关的事情却能够通过观察与分析后告诉人们更多背后的因果。这些因果联系的意义会让人们在各个方面能够推测未来趋势,减少试错的机会,减少成本,降低风险,解放劳动力。笔者认为这才是大数据产业本身的价值与意义所在。