大数据营销
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 数据产业的发展

数据由来已久,数据的历史就是人类的文明史,也是人类的科技史。早在1980年美国著名未来学家阿尔文·托夫勒就在《第三次浪潮》一书中,提出信息革命是人类文明史上的“第三次浪潮”,并将数据和信息赞颂为“第三次浪潮的华彩乐章”。事实上,随着1946年首台计算机的诞生,信息和数据技术也在突飞猛进,日新月异。信息技术(Information Technology,IT)和数据技术(Data Technology,DT)产业的每个阶段都是由新兴的IT供应商主导的。他们改变了已有的秩序,重新定义了计算机的规范,并为进入IT领域的新纪元铺平了道路。图1.4展示了IT产业的发展阶段。

图1.4 IT产业的发展阶段

20世纪60年代至70年代的大型机阶段是以Burroughs、Univac、NCR、Control Data和Honeywell等公司为首的。在步入20世纪80年代后,小型机涌现出来,这时为首的公司包括DEC、IBM、Data General、Wang、Prime等。

在20世纪90年代,IT产业进入了微处理器或个人计算机阶段,领先者为Microsoft、Intel、IBM和Apple等公司。

从20世纪90年代中期开始,IT产业进入了网络化阶段。

如今,全球网络在线的人数已经超过了10亿,这一阶段由Cisco、Google、Oracle、EMC、Salesforce.com等公司领导。IT产业的下一个阶段还没有正式命名,人们更愿意称其为云计算/大数据阶段。

数字信息每天在无线电波、电话电路和计算机电缆等媒介中川流不息。我们周围到处都是数字信息,在高清电视上看数字信息,在互联网上听数字信息,自己也在不断制造数字信息。例如,每次用数码照相机拍照后,都产生新的数字信息,再通过电子邮件把照片发给家人和朋友,就制造了更多的数字信息。不过,没人知道这些流式数字信息有多少、增加速度有多快、其激增意味着什么。正如中国人在发明文字前就有了阴阳学说,并用其解释包罗万象的宇宙世界一样,西方人用制造、获取和复制的所有的1和0,通过计算机处理组成了数字世界。人们通过拍摄照片和共享音乐制造了大量的数字信息,而公司则组织和管理这些数字信息的访问、存储,并为其提供强有力的安全保障。

目前世界上有三种类型模拟数字转换方式:

(1)胶片影像拍摄转换为数字影像拍摄;

(2)模拟语音转换为数字语音;

(3)模拟电视转换为数字电视。

从数码照相机、可视电话、医用扫描仪到保安摄像头,全世界有10亿多台设备在拍摄影像,这些影像成为数字海洋中最大的组成部分,通过互联网、企业内部网在个人计算机、服务器及数据中心中复制,通过数字电视广播和数字投影银幕播放。

2007年是有史以来人类创造的信息量第一次在理论上超过可用存储空间总量的一年。然而,这并不可怕,调查结果强调现在人类应该也必须合理调整数据存储和管理。如30多年前,通信行业的数据大部分还是结构化数据。如今,多媒体技术的普及导致非结构化数据如音乐和视频等的数量出现爆炸式增长。虽然30多年前的一个普通企业用户文件也许表现为数据库中的一排数字,但是如今的类似普通文件可能包含许多数字化图片、影像或数字化录音内容。现在,92%以上的数字信息都是非结构化数据。在各组织和企业中,非结构化数据占到了所有信息数据总量的80%以上。

另外,可视化是引起数字世界急速膨胀的主要原因之一。由于数码照相机、数码监控摄像机和数字电视内容的飞速增长及信息的大量复制,使得数字世界的容量和膨胀速度超过此前的估计。个人日常生活的“数字足迹”大大刺激了数字世界的快速增长。通过互联网、社交网络、电子邮件、移动电话、数码照相机和在线信用卡交易等多种方式,每个人的日常生活都在被“数字化”。数字世界的规模在2006—2011年5年间约膨胀了10倍。

数据快速增长的原因之一是智能设备的普及,如传感器、医疗设备及智能建筑(如楼宇和桥梁)。此外,非结构化信息,如文件、电子邮件和视频,将占到未来10年新生数据的90%。非结构化信息增长的另一个原因是高宽带数据的增长,如视频。如图1.5所示,预计到2025年全球数据量将达到163ZB(数据存储单位,皆字节,1ZB=1024EB)。

图1.5 全球数据总量预测(2016—2025年)

(数据来源:2018年全球数据中心建设行业发展趋势及市场规模预测[OL],http://www.diyxx.com/industry/201806/653017.html.)

用户的手机和其他移动设备是数据量爆炸的一个重要原因。目前,全球手机用户共拥有50亿台手机,其中20亿台为智能手机,相当于20世纪80年代20亿台IBM的大型机在消费者手里。

《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。对“大数据”进行收集和分析的设想,来自世界著名的管理咨询公司麦肯锡公司(McKinsey&Company)。麦肯锡公司看到了各种网络平台记录的个人海量信息具备的潜在的商业价值,于是投入大量人力、物力进行调研,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析,首先提出了“大数据时代”的到来并声称“数据已经渗透到当今各行各业的职能领域,成为重要的生产因素”。麦肯锡公司的报告得到了金融界的高度重视,而后逐渐受到各行各业的关注。

数据的产生方式由“人机”“机物”的二元世界向着融合社会资源信息系统及物理资源的三元世界转变,数据规模呈膨胀式发展。例如,在互联网领域中,谷歌搜索引擎的每秒使用用户量达到200万;在科研领域中,仅某大型强子对撞机在一年内积累的新数据量就达到15PB (数据存储单位,拍字节,1PB=1024TB)左右;在电子商务领域中,eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量;在“双11”大型商业活动中,淘宝商城屡创神话,销售额由2010年的9亿元一路攀升到2018年的2135亿多元,支付宝平台平均每秒成功交易12万笔,交易覆盖235个国家和地区;在航空航天领域中,仅一架双引擎波音737飞机在横贯大陆飞行的过程中,传感器网络便会产生近240TB的数据。综合各个领域,目前积累的数据量已经从TB(数据存储单位,太字节,1TB=1024GB)量级上升到PB、EB(数据存储单位,艾字节,1EB=1024PB)量级,甚至已经达到ZB量级,其数据规模已经远远超出了现有通用计算机所能够处理的量级。

根据全球著名咨询机构互联网数据中心国际数据公司(International Data Corporation)做出的估测,人类产生的数据一直都在以每年50%的速度增长,也就是说,每两年数据量就会增加一倍,已形成了“大数据摩尔定律”,这意味着人类在最近两年产生的数据量相当于之前产生的数据量之和。据DC统计,2011年全球被创建和复制的数据总量为1.8ZB,预计到2020年将攀升到50ZB,是2012年的12倍。而我国的数据量到2020年将超过8ZB,是2012年的2倍,其中80%以上将来自于个人(主要是图片、视频和音乐),远远超过人类有史以来印刷材料的数据总量(200PB)。

如今大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的最新科技进步(如虚拟现实技术、增强现实技术、纳米技术、生物工程、移动平台应用等)一起,揭开人类新世纪的序幕。随着互联网技术的蓬勃发展,我们一定会迎来大数据的智能时代,即大数据技术和生活紧密相连,它再也不仅仅是人们津津乐道的一种时尚,而是成为生活中的向导和助手。

大数据时代已悄然来到我们身边,并渗透到我们每个人的日常生活之中,谁都无法回避。它提供了光怪陆离的全媒体、难以琢磨的云计算、无法抵御的虚拟仿真环境和随处可在的网络服务。