大数据导论
上QQ阅读APP看书,第一时间看更新

1.1.2 大数据的概念及特征

1.大数据的内涵

大数据(Big Data)术语早在20世纪80年代就被提出,直到2008年科学家在Nature杂志上撰写文章Big Data: Science in the Petabyte Era,大数据概念逐渐被人们所熟知。2011年Science杂志推出专刊Dealing with Data,围绕科学研究中的大数据问题展开讨论,说明大数据的重要性。进入2012年大数据的研究热潮开始,全球的许多学术会议均围绕大数据议题展开。虽然大数据的研究与应用获得全球各个国家的高度重视,并取得令人惊叹的成绩,促进了社会经济的快速发展,但是大数据的定义至今未有统一的描述形式,各大研究机构和科研院所,从大数据的各个角度进行阐述得到各自相应的定义形式。

全球著名的管理咨询公司麦肯锡,也是大数据研究先驱者之一,在其研究报告Big data: the next frontier for innovation, competition, and productivity(《大数据:创新、竞争和生产力的下一个前沿领域》)给出大数据的定义:大数据是指无法通过传统的存储管理和分析处理软件进行采集、存储、管理和分析的数据对象集合。同时该报告还强调,大数据不一定要求数据量一定要到TB级别。

国际数据公司(IDC)从4个方面来描述大数据,即数据规模量大、数据快速动态可变、类型丰富和巨大的数据价值,具有这些特征的数据集合称为大数据。

研究机构Gartner提出:大数据是指超出正常处理范围,迫使用户寻求新的处理模式才能够较好地解决数据分析问题,使其具备更强的决策能力和洞察发现力,获取更多的信息资产。

维基百科关于大数据的定义是指在合理的时间内,无法通过现有软、硬件体系结构对数据资料进行收集、存储和处理,并帮助决策者进行决策服务。

全球最大的电子商务公司亚马逊公司关于大数据的定义更为简单直接,大数据就是指超越一台计算机处理能力的数据量。

综合以上几个代表性的定义可知,大数据概念较为宽泛,具备“仁者见仁、智者见智”的特点。大数据除具备数据量大外、还具备数据的多样性,关键是利用现有技术水平和处理模式,无法在一个合理的时间范围内得到所需要的信息资产。这也说明在大数据时代,我们要关心大数据本身的特点,更要关心大数据所具备的功能特性,即能够帮助人们做什么。

在信息科技发展道路上,与大数据相近的另一个术语是海量数据(Vast Data),它们都是数据化时代出现的一种现象。它们具有的共同特点是数量大,但两者之间也存在某些显著差异。Informatica中国区首席产品顾问但彬认为:大数据包含海量数据,但在形式多样性、内容复杂性方面远远超越海量数据,因此在理解大数据时可以认为是由海量数据+复杂类型的数据构成。正是两者之间存在差异,导致在进行大数据应用时仍然存在许多技术障碍,无法把海量数据处理技术直接迁移至大数据分析环境中。

2.基本特征

目前在描述大数据特征时,一般均是按照国际数据公司IDC所提的“4V”模型来刻画,即体量大(Volume)、多样性(Variety)、速度快(Velocity)和价值(Value)。

1)体量大

当前数据正以前所未有的速度快速聚集和增长,大数据时代已经到来。在电商、社交网络、能源、制造业和服务业等领域都已积累了TB级、PB级甚至EB级的数据量。全球著名连锁超市沃尔玛每小时处理100多万条用户记录信息,维护着超过2.5PB的客户关系数据库;在科学实验方面,如2008年投入使用的大型强子对撞机每年产生25PB的数据;社交网络Facebook存储的照片已超过500亿张。在大数据时代,数据存储单位逐渐被PB、EB、ZB、YB所替代。

近年来,数据快速增长趋势一直持续。根据国际数据公司(IDC)的《数据宇宙》报告显示,2008年全球数据量仅为0.5ZB,2010年就达到1.2ZB,人类社会正式进入ZB时代。根据报告所列举的统计数据可知,2020年以前全球数据量将保持40%的速度快速增长,2020年全球数据量将达到40ZB,此现象被人们称为“大数据爆炸定律”。2020年前全球累积的数据量变化预测趋势如图1-1所示。

图1-1 全球数据量预测

2)多样性

大数据除了体量大外,另一个最重要的特征就是数据类型的多样化,即数据存在形式包括结构化数据、半结构化数据和非结构化数据。在早期,数据类型主要是以结构化数据为主,这一类型数据存储方便、处理简单、相关的技术非常成熟。在该阶段数据存储主要以关系数据库为主,如Oracle、SQL Server等;结构化查询语言(Structure Query Language, SQL)作为访问中间件嵌入各种开发环境中。随着互联网应用的深入,特别是社交网络、电子商务、流媒体应用环境中所出现的文本数据、交互数据、图像、视频和音频等,这些非结构化数据大量涌现加剧大数据环境中数据存储、检索和分析的难度。在2012年非结构化数据占有量占整个互联网数据量的75%以上。有统计表明,全球结构化数据增长率大约是32%,而非结构化数据增长率达到63%。相信在今后数据存储方面仍然以非结构化数据为主,因此,针对非结构化数据的处理技术和模型研究将是大数据时代数据分析的重点。

3)速度快

大数据环境中速度快有两层含义:一是数据产生快;二是要求分析处理速度快。随着各种高性能存储设备的出现,人们对于数据产生后的高效处理有了物质基础。据统计,每秒人们通过互联网平台发送电子邮件290封;亚马逊公司每秒需要处理72.9笔客户订单。另外,在日常生活中各种监控网络每时每刻均在产生大量的数据信息,如道路交通监控网络、智慧城市等。大量的数据快速产生,信息价值稍纵即逝。因此要想从高速、体量大的大数据中获取有效信息,要求相应的大数据分析处理模型具有较高的处理速度,以满足实时性需求。针对各种应用分析实时性要求,后文把大数据分析分为在线分析(Online Analysis)和离线分析(Offline Analysis)。

4)价值

大数据拥有大量有价值信息,通过提炼的信息,能够在更高的层面和视角,将在更大的范围帮助用户提高决策力,洞察未来创造出更大的价值和商机,对社会、经济和科学研究等方面具有重要的战略意义。2010年,医疗科技公司CardioDX通过对1亿个基因样本的分析,得出能够预测冠心病的23个主要基因信息;通过对社交网络和微博上的舆情监控分析,及时跟踪社会动态,实现对突发事件进行预警和疏导。电子商务网站通过对顾客在网络上的点击和停留时间等行为分析,实现商品的精准推荐等。

通常情况下,大数据背后的价值信息分布毫无规律,隐藏较深。发现大数据价值势必为大数据的分析预测环节带来挑战,并要求预测分析系统具备高性能、实时性、可扩展性等特征。纵观大数据特征和分析环境可知,要想实现大数据价值的有效分析需具备三大要素,即大分析(Big Analytic)、大带宽(Big Bandwidth)、大内容(Big Content)。大分析是指通过新的方法实现对大数据快速、高效、实时的分析计算,旨在得出数据之间的隐含规律,帮助用户掌握事件背后的机理、预测发展趋势,得到更大的价值;大带宽是指提供良好的通信设施基础,以便能够在更大的范围、较复杂的环境中,使各节点之间的数据传输高效安全,为大分析奠定基础;大内容是指价值信息隐匿较深,需要足够多、足够大的数据才能更加有效地挖掘出其具有的规律。因此,大分析是技术实现途径,大带宽是物质保障,大内容是获取大价值的前提条件。