
1.3.1 什么是大数据
早在1980年,著名未来学家阿尔文·托夫勒就提出大数据的概念。2009年,美国互联网数据中心提出大数据时代已来临。随着谷歌MapReduce和Google File System(GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。《大数据标准化白皮书V2.0》记载了不同研究机构、公司从不同角度对于大数据的定义诠释。
2011年,美国著名的咨询公司麦肯锡(Mckinsey)在研究报告《大数据的下一个前沿:创新、竞争和生产力》中给出了大数据的定义:大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。Gartner认为:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
美国国家标准技术研究所(National Institute of Standards and Technology,NIST)的大数据工作组在《大数据:定义和分类》中认为:大数据是指那些传统数据架构无法有效地处理的新数据集。因此,采用新的架构来高效率完成数据处理,这些数据集的特征包括容量、数据类型的多样性,多个领域数据的差异性,数据的动态特征(速度或流动率,可变性)。
维基百科给出的定义是:大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。百度百科给出的定义是:大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到提取、管理、处理并整理成为帮助企业经营决策的信息。
国内普遍认为:大数据是具有数量巨大、来源多样、生成极快且多变等特征,难以用传统数据体系结构有效处理的包含大量数据集的数据。它具有如下特征。
(1)多样性(Variety):除了结构化数据外,大数据还包括各类非结构化数据(如文本、音频、视频、文件记录等),以及半结构化数据(如电子邮件、办公处理文档等)。
(2)速度快(Velocity):通常具有时效性,企业只有把握好对数据流的掌控应用,才能最大化地挖掘利用大数据所潜藏的商业价值。
(3)数据量大(Volume):虽然对各大数据量的统计和预测结果并不完全相同,但是都一致认为数据量将急剧增长。
(4)价值密度低(Value):可以从海量价值密度低的数据中挖掘出具有高价值的数据。这一特性突出表现了大数据的本质是获取数据价值,关键在于商业价值,即如何有效利用好这些数据。
阿姆斯特丹大学的Yuri Demchenko等人提出了大数据体系架构的5V特征,如图1-9(图来自《大数据标准化白皮书V2.0》)所示,它在上述4V的基础上,增加了真实性(Veracity)特征。

图1-9 大数据体系架构的5V特征