1.1 什么是大数据
大数据,英文为Big Data。这个如今耳熟能详的名字,是《自然》(Nature)杂志于2008年9月4日的专辑“Big Data”中首次提出的。
Google在其推动世界范围内的信息整合过程中,极大地推动了大数据技术的创新和发展。
然而,到底什么是大数据?它的概念和外延包括哪些?由于大数据是最近新衍生出来的概念,它的内涵和外延也在不断地拓展和变化着,目前还没有一个业界广泛采纳的明确定义。
2011年6月,麦肯锡全球研究院(MGI)在它的报告《大数据:创新、竞争和生产力的下一个前沿领域》中这样描述:大数据是指无法用传统数据库软件工具对其内容进行抓取、管理和处理的大体量数据集合(“Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture,store,manage,and analyze)。
几乎同时,IDC(International Data Corporation)在它编制的年度数字宇宙研究报告《从混沌中提取价值》(Extracting Value from Chaos)中给大数据下了一个定义:大数据技术是新一代的技术与架构,它被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value)(Big data technologies describe a new generation of technologies and architectures,designed to economically extract value from very large volumes of a wide variety of data,by enabling high-velocity capture,discovery,and/or analysis)。
IDC的定义描述了大数据时代的四大特征,即俗称的4V,而这4V(volumes、velocity、variety、value)也被广泛地认可为大数据的最基本内涵。
(1)海量化(volumes)
数据体量巨大是大数据的首要特征,也是大家最容易发现的特征。全球数据正以前所未有的速度增长着,每天都有数以百万兆字节的数据在互联网上产生。据估计,全球可统计的数据存储量在2011年约为1.8ZB,2015年超过8ZB。数据的爆炸式增长引发了数据存储和处理的危机。
(2)多样化(variety)
数据类型的日趋繁多是大数据的另一个特征。传统的数据可以用二维表的形式存储在数据库中,我们称之为结构化数据。但随着互联网多媒体应用的兴起,图片、声音和视频等非结构化数据成为了数据的主要组成部分,统计显示,目前全世界非结构化数据已占数据总量的90%左右。如何有效地处理非结构化数据,并挖掘出其中蕴含的商业价值和经济社会价值,是大数据技术要解决的问题。
(3)快速化(velocity)
快速处理是大数据必须满足的要求。经济全球化形势下,企业面临的竞争环境越来越严酷。在此情况下,如何及时把握市场动态,深入洞察行业、市场、消费者的需求,并快速、合理地制定经营策略,就成为企业生死存亡的关键。而对大数据的快速处理分析,是实现这一目标的前提。
(4)价值化(value)
大数据蕴含的整体价值是巨大的,但是由于干扰信息多,导致其价值密度低,这是大数据在价值维度的两个特征。挖掘出大数据的有用价值并加以利用,是数据拥有者的自然目标。但市场形势瞬息万变,因此,如何在海量的、多样化的、低价值密度的数据中快速挖掘出其蕴含的有用价值,是大数据技术的使命。
虽然后续不断有人增加对“V”的理解,如veracity(真实和准确),强调真实而准确的数据才能让对数据的管控和治理真正有意义;如vitality(动态性),强调数据体系的动态性等。这些对大数据的内涵都有一定的推动作用,但都不及开始的4V具有广泛性。