大数据及其可视化
上QQ阅读APP看书,第一时间看更新

1.1.5 大数据的结构类型

大数据具有多种形式,从高度结构化的财务数据,到文本文件、多媒体文件和基因定位图的任何数据,都可称为大数据。由于数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法就是在并行计算的环境中进行大规模并行处理(Massively Parallel Processing,MPP),这使得同时发生的并行摄取、并行数据装载和分析成为可能。实际上,大多数的大数据都是非结构化或半结构化的,这需要不同的技术和工具来处理和分析。

大数据最突出的特征是它的结构。图1-5显示了几种不同数据结构类型数据的增长趋势,由图可知,未来数据增长的80%~90%将来自于不是结构化的数据类型(半、准和非结构化)。

图1-5 数据增长日益趋向非结构化

虽然图1-5显示了4种不同的、相分离的数据类型,实际上,有时这些数据类型是可以被混合在一起的。例如,有一个传统的关系数据库管理系统保存着一个软件支持呼叫中心的通话日志,这里有典型的结构化数据,如日期/时间戳、机器类型、问题类型、操作系统,这些都是在线支持人员通过图形用户界面上的下拉式菜单输入的。另外,还有非结构化数据或半结构化数据,如自由形式的通话日志信息,这些可能来自包含问题的电子邮件,或者技术问题和解决方案的实际通话描述。另外一种可能是与结构化数据有关的实际通话的语音日志或者音频文字实录。即使是现在,大多数分析人员还无法分析这种通话日志历史数据库中最普通和高度结构化的数据,因为挖掘文本信息是一项强度很大的工作,并且无法简单地实现自动化。

人们通常最熟悉结构化数据的分析,然而,半结构化数据(XML)、“准”结构化数据(网站地址字符串)和非结构化数据代表了不同的挑战,需要不同的技术来分析。

如今,人们不再认为数据是静止和陈旧的。但在以前,一旦完成了搜集数据的目的之后,数据就会被认为已经没有用处了。比如说,在飞机降落之后,票价数据就没有用了。又如,某城市的公交车因为价格不依赖于起点和终点,所以能够反映重要通勤信息的数据就可能被丢弃——设计人员如果没有大数据的理念,就会丢失掉很多有价值的数据。

今天,大数据是人们获得新的认知、创造新的价值的源泉,大数据还是改变市场、组织机构,以及政府与公民关系的方法。大数据时代对人们的生活,以及与世界交流的方式都提出了挑战。实际上,大数据的精髓在于人们分析信息时的3个转变,这些转变将改变人们理解和组建社会的方法,且是相互联系和相互作用的。