第一节 大数据的发展历程
所谓大数据,是区别于过去的海量数据等概念而言的。随着当前社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用,互联网中越来越多的信息是不规则的半结构化甚至非结构化数据。大数据计算服务的目的,就是对当前互联网领域占据80%以上的非结构化和半结构化数据进行智能分析,并且实时地将计算结果通过网络反馈给终端用户。Gang-Hoon Kim等[1]认为,大数据技术属于第5代决策分析技术:1960年代的数据处理技术,1970~1980年代的信息应用,1990年代的决策支持模型,2000年后的数据仓库和数据挖掘技术,直到当前的大数据技术。现在大数据时代刚刚开始,大部分相关技术和分析应用仅仅是从2010年前后才开始出现[2]。大数据分析可以分为三类:一是描述性分析,主要是形成一些标准报告、应急性报告和报警性报告等;二是预测性分析,主要围绕预测和统计建模展开;三是定题性分析,主要关注优化和随机性测试研究[3]。
近年来,大数据在全球范围内受到追捧。据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番,预计到2020年,全球将拥有40ZB的数据量。据统计,平均每秒都有200万用户在使用Google搜索,Facebook注册用户超过10亿,每天生成300TB以上的日志数据。同时,传感网、物联网、社交网络等技术迅猛发展,引发数据规模爆炸式增长,大数据时代已经到来。
由于大数据的广泛应用以及大数据蕴藏的巨大潜力和价值,许多国家纷纷将大数据的建设和发展上升为国家战略。自1999年起,国内“第三届亚太地区知识发现与数据挖掘国际会议”、“Hadoop与大数据技术大会”和“大数据共享联盟”等就开始开展有关大数据研究和开发的促进工作[4]。2008年“计算社区联盟”(Computing Community Consortium)在《大数据计算:在商务、科学和社会领域创建革命性突破》报告中详尽阐述了大数据对社会治理的推动作用,以及潜在的商业价值。2012年3月29日,美国正式发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative )[5],该倡议书中提到,大数据计划的实施,旨在帮助美国获得从海量复杂数据集中萃取知识的能力,借此提高国家应对急迫挑战的能力,这份倡议书标志着大数据已经上升为美国在计算服务领域的国家战略。在国内,到2013年,维克托·迈尔·舍恩伯格的《大数据时代:生活、工作与思维的大变革》一书掀起大数据热潮。
大数据同样引起了我国政府的高度关注。2015年,《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)正式印发,标志着大数据正式上升为国家战略。党的十九大报告提出,要建设网络强国、数字中国、智慧社会,推动互联网、大数据、人工智能和实体经济深度融合,发展数字经济、共享经济,培育新增长点、形成新动能。2017年12月8日,习近平总书记在中共中央政治局就实施国家大数据战略进行第二次集体学习时指出,大数据是信息化发展的新阶段。他指出,随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。在党和政府的高度重视和大力推动下,社会各界对大数据高度重视。据笔者不完全统计,近年来全国已经有25个省份设立了大数据管理局或大数据管理中心等职能部门,促进大数据发展、有效释放数据红利已经成为社会各界广泛共识。
纵观全球大数据的发展史,可以将大数据的演进历史分为理论萌芽探索、技术研究发展和实践应用爆发三个阶段。具体如下。
理论萌芽探索阶段(2008年以前):此阶段大数据的理论基础较为缺乏,各界研究的主要问题是大数据的概念。20世纪80年代,美国著名的未来学家、社会思想家阿尔文·托夫勒在其所著的《第三次浪潮》中提出“大数据”这一理念,并热情地将其称颂为“第三次浪潮的华彩乐章”。1997年美国电子电器工程师学会举办的第八届可视化会议上,美国国家航空航天局的两位研究员迈克尔·考克斯和戴维·埃尔斯沃思首次提出“大数据”一词并界定了其内涵。他们表示,计算机日新月异的快速发展,带动了数据处理技术的革新,促使人类重新调整自身认识问题、解决问题的方法。该阶段所引用的“大数据”概念,多是指“大量的数据或数据集”这样的字面含义,还没有覆盖到相关的收集、存储、分析、应用等相关技术方法与特征内涵[6]。关于“大数据”概念的前期描述如表1-1所示。
表1-1 “大数据”概念的前期描述
续表
技术研究发展阶段(2009~2011年):此阶段随着对大数据核心技术的深入探索,加入大数据研究的学者和机构不断增加,研究重点逐渐从技术层面向应用层面扩展。如对大量数据进行分布式处理并构建一种可靠、高效、可伸缩的计算系统的开源分布式架构Hadoop,在此期间初具生产规模。2009年Ginsberg在Nature 上发表论文,采用大数据搜索引擎查询数据并对流行性流感活动进行检测。而让“大数据”成为互联网信息时代科技界热词的是麦肯锡公司,2011年5月,麦肯锡在题为《大数据:下一个创新、竞争和生产力的前沿》(The next frontier for innovation,competition and productivity )的研究报告中,从商业和经济角度揭示大数据发展的现状和潜力,并为生物医疗、政府管理部门、销售行业、制造行业和地理信息科学等应用领域提出了应对大数据时代的策略。这份报告的发布大力地推动了“大数据”的发展。
实践应用爆发阶段(2012年至今):此阶段全球大数据研究的重点主要是大数据理念、云计算,及大数据在社会管理、信息管理中的应用等,大数据发展呈现出研究和应用相互交融的态势。人们对大数据的认识也从技术概念丰富为信息资产、思维变革以及战略发展等多个维度。比如联合国秘书长执行办公室启动了“全球脉动”计划,并在随后几年发布的《大数据促发展:挑战与机遇》报告中提出,大数据将为社会发展带来空前广阔的发展前景与安全隐私上的挑战。世界各国也纷纷将大数据视作重要的战略制高点,如美国提出的《大数据研究和发展倡议》、中国公布的《促进大数据发展行动纲要》以及经济合作与发展组织(OECD)推出的《使用大数据作决策》等一系列重要文件[7]。同时,美国政府投资2亿美元拉动大数据产业发展,将大数据产业发展上升为国家战略,并形象地称其为“未来的新石油”,并颁布《大数据的研究和发展计划》,成立“大数据高级指导小组”,希望通过提高大型复杂数据的处理能力,加快美国科技发展的步伐。短短数年,物联网技术的演变、社交媒体的兴起、人工智能的发展都渗透在社会方方面面的变革之中。国内市场上,从2012年开始,以大型互联网企业及传统的运营商等为代表的组织纷纷启动了关于大数据的研发和应用。现在,大数据分析与挖掘的研究成果也被广泛应用于舆情分析、电子商务、网络通信、健康医疗、生物技术和现代金融等各个领域。