大数据基础与应用
上QQ阅读APP看书,第一时间看更新

1.2 大数据的结构与特征

大数据是互联网发展到现今阶段的一种表象或特征,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据,开始以不同的形式和结构被利用了起来。

1.2.1 大数据的结构

想要系统地认知大数据,必须要全面而细致地分解它,从以下三个层面来展开。

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义来理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。可以分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。可以分别从互联网的大数据、政府的大数据、企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分,图1-1为大数据的三种结构。

图1-1 大数据的三种结构

1.结构化数据

结构化数据,简单来说就是数据库。也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式,搜索引擎都支持标准的结构化数据标记。

结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data。结构化数据最常见的就是具有模式的数据,结构化就是模式。大多数技术应用基于结构化数据。

2.半结构化数据

半结构化数据和普通纯文本相比具有一定的结构性,但和具有严格理论模型的关系型数据库的数据相比更灵活。它是一种适合于数据库集成的数据模型,也就是说,适于描述包含在两个或多个数据库(这些数据库含有不同模式的相似数据)中的数据。它是一种标记服务的基础模型,用于Web上共享信息。对半结构化数据模型感兴趣的动机主要是它的灵活性。特别的,半结构化数据是“无模式”的。更准确地说,其数据是自描述的,它携带了关于其模式的信息,并且这样的模式可以随时间在单一数据库内任意改变。

这种灵活性可能使查询处理更加困难,但它给用户提供了显著的优势。例如,可以在半结构化模型中维护一个电影数据库,并且能如用户所愿地添加类似“我喜欢看此部电影吗?”这样的新属性。这些属性不需要所有电影都有值,或者甚至不需要多于一个电影有值。同样的,可以添加类似“homage to”这样的联系而不需要改变模式,或者甚至表示不止一对的电影间的联系。

因为要了解数据的细节,所以不能将数据简单地组织成一个文件并按照非结构化数据处理,由于结构变化很大也不能够简单地建立一个表和它对应。

半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表。

半结构化数据的数据是有结构的,但却不方便模式化,或者因为描述不标准,或者因为描述有伸缩性,总之不能模式化。XML和json表示的数据就有半模式的特点。

半结构化数据中结构模式附着或相融于数据本身,数据自身就描述了其相应结构模式,半结构化数据具有下述特征。

1)数据结构自描述性。结构与数据相交融,在研究和应用中不需要区分“元数据”和“一般数据”(两者合二为一)。

2)数据结构描述的复杂性。结构难以纳入现有的各种描述框架,实际应用中不易进行清晰的理解与把握。

3)数据结构描述的动态性。数据变化通常会导致结构模式变化,整体上具有动态的结构模式。

常规的数据模型例如E-R模型、关系模型和对象模型恰恰与上述特点相反,因此可以成为结构化数据模型。而相对于结构化数据,半结构化数据的构成更为复杂和不确定,从而也具有更高的灵活性,能够适应更为广泛的应用需求。其实,用半模式化的视角看待数据是非常合理的。没有模式的限定,数据可以自由地流入系统,还可以自由地更新。这更便于客观地描述事物。在使用时模式才应该起作用,使用者想获取数据就应当构建需要的模式来检索数据。由于不同的使用者构建的模式不同,数据将最大化地被利用。这才是最自然的使用数据的方式。

3.非结构化数据

非结构化数据是与结构化数据相对的,不适合于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、子字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,且这些数据每年都按指数增长60%。

非结构化数据不可以通过键值获取相应信息。非结构化一般指无法结构化的数据,例如图片、文件、超媒体等典型信息,在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实施,将会有越来越多的非结构化数据产生,据预测,非结构化数据将占据所有各种数据的70%~80%以上。结构化数据分析挖掘技术经过多年的发展,已经形成了相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式,表示灵活,因此蕴含了丰富的信息。综合看来,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要的。

其挑战性问题在于语言表达的灵活性和多样性,具体的非结构化数据处理技术包括:

1)Web页面信息内容提取;

2)结构化处理(含文本的词汇切分、词性分析、歧义处理等);

3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等);

4)文本建模(含向量空间模型、主题模型等);

5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)。

这些技术所涉及的技术较广,在情感分类、客户语音挖掘、法律文书分析等许多领域都有广泛的应用价值。

1.2.2 大数据的特征

大数据具有4V特征,即Volume(大量)、Variety(多样)、Velocity(高速)和Veracity(精确),其核心在于对这些含有意义的数据进行专业化处理。

(1)数据体量巨大

指大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;资料表明,百度新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5000亿张A4纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为200PB。

例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人计算机。此外,各种意想不到的来源都会产生数据。

在2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15min就可以完成同样的工作量。伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量产生出来。

移动互联网的核心网络节点是人,不再是网页,人人都成为数据制造者,短信、微博、照片、录像都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等;也来自自动流程记录,刷卡机、收款机、电子不停车收费系统,互联网点击、电话拨号等设施以及各种办事流程登记等。

(2)数据类别多和类型多样

数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化。数据范畴囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝大多数。

数据多样性的增加主要是由新型多结构数据造成,包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型。

大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析的情况。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。多样化的数据来源正是大数据的威力所在,例如交通状况与其他领域的数据都存在较强的关联性。大数据不仅是处理巨量数据的利器,更为处理不同来源、不同格式的多元化数据提供了可能。

(3)处理速度快

高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速计算机处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。

在数据量非常庞大的情况下,也能够做到数据的实时处理。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。在未来,越来越多的数据挖掘趋于前端化,即提前感知预测并直接提供服务给所需要的对象,这也需要大数据具有极快的处理速度。

(4)价值真实性高和密度低

数据真实性高,随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。

数据的真实性和质量是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。