走近大数据
上QQ阅读APP看书,第一时间看更新

1.6 大数据概念正解

提及大数据,顾名思义,不就是数据大吗?而大数据仅仅只是数据量大吗?大量的数据,是不是就是大数据了呢?

1.6.1 大数据等于数据大吗

2011年5月,全球管理咨询公司麦肯锡给出的大数据定义指出:大数据是指超过了常规数据库软件工具所能获取、存储、管理和分析规模的数据集James Manyika,Michael Chui,Brad Brown,et.al.Big date:the next fronties for innovation,competition,and productivity,McKinsey Global Institute,May 2011.

维基百科将大数据定义为那些规模超过常规用途软件工具,在可接受时间内捕获、管理和处理的数据集。

这些在大数据萌生初期给出的定义,都充分肯定了大数据的基本特征——“大”。从某种程度上来说,大数据缘于对数据规模和非结构化数据处理需求的窘迫和迫切。那么,大数据第一个内涵就是数据量大。

1.6.2 大数据>数据大

这个数据规模一定是一个相对的数量。我们可以说收集了10万亿条价格记录是大数据,那我们能不能说我们收集了上千个孩子的学习数据,就不是大数据呢?显然大数据的内涵绝不仅仅是达到某个绝对值的“大”。某种意义上,从各种各样的数据中,快速提炼价值信息就是大数据。

国际数据公司(IDC,International Data Corporation)在存储技术公司——EMC的资助下,推出了系列报告——数据宇宙研究The expanding digital universe,IDC,2007.,其使用了“数据宇宙”的概念来描述海量的数据,并更全面地定义了大数据。

“大数据”是指为了更经济、更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。

1.6.3 大数据内涵——4V属性

综合各种对大数据定义来看,业界将大数据内涵收敛到Gartner提出的4V属性。下面分别对其进行说明。

1.数据体量巨大(Volume)

数据量本身很大,从TB级别,跃升到PB级别。其大存储量,对传统的数据存储技术提出了新的挑战。事实上,巨大的数据量不可能全部存储下来。例如,医疗数据管理系统会处理掉90%的数据(如手术过程中产生的实时视频图像)。

2.数据类型多(Variety)

除了更多、更广泛的有丰富处理经验的结构化数据外,还包括网络日志、视频、图片、地理位置信息等。数据类型、来源等更加多样化,处理难度更高。在不同的数据类型中进行交叉分析,是大数据的核心技术之一。

3.数据处理响应速度快(Velocity)

有很多数据的应用需求要求实时响应、实时处理和实时反馈。这是区别大数据引用和传统数据技术的关键。大数据的1秒定律定义为必须在1秒内得到处理结果。

4.数据真实性(Veracity)

数据真实的引申含义就是数据有价值(Value)。只有合理利用数据并对其进行正确、准确的分析,才会带来很高的价值回报。

前3个V是大数据带来的技术调整,只有技术上突破了3V,大数据才可能被利用。而最后一个V是大数据的终极目标,技术是它实现的前提,但不是全部。数据量的迅速发展使其价值密度降低,但挖掘出的信息价值更加珍贵。因此,大数据之“大”除了指“数量大”以外,更在于其“价值大”。一个形象的比喻是,为了一点金子,需要保存全部沙子。

1.6.4 大数据原理模拟

为了便于理解大数据的原理,我们设想了一个简单的大数据业务需求场景及其解决方案,如图1-7所示。

图1-7 大数据业务需求场景及解决方案示例

该大数据业务需求解决方案中使用的3个技术分别可以进行如图1-8所示的归纳:①收集尽量多的巧克力是大数据获取与治理技术,它提供了大数据生效基础的数据;②分析巧克力的特征是大数据分析技术,它给大数据提供了大智慧;③展现结果是大数据展现技术,及时和有效地可视化大数据的结果才能使大数据霸气外露。

图1-8 大数据业务需求解决方法归纳

通过上述大数据生效原理模拟,可以分析得出大数据的优势所在:多、快、好、省。这4点优势对应着大数据的4V属性,量多、省时、高价值、低处理成本。人们也喜欢做出这样的总结,大数据就是数据、技术和思维的“三足鼎立”,思维又是大数据生效的关键中的关键。