2.4 大数据的关键技术
大数据技术用于在成本可承受(Economically)的条件下,通过非常快速(Velocity)的采集、发现和分析,从大量化(Volumes)、多类别(Variety)的数据中提取价值(Value),大数据技术是IT领域新一代的技术与架构。
从大数据产业结构示意图(如图2-7所示)中可看出,对大数据的处理主要包括:数据生成(也叫数据采集数据获取)、数据存储、数据处理和数据应用(也叫数据分析与挖掘)。为了完成这四项任务,需要计算机从硬件到软件的支持,每层完成不同的功能,也就需要相应的技术支持。
图2-7 大数据产业结构示意图
大数据的关键技术主要有以下五方面。
1.大数据预处理技术
大数据预处理技术包括以下几个方面。
1)数据采集:ETL(Extract-Transform-Load)是利用某种装置(比如摄像头,麦克风),从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域。
2)数据存取:关系数据库,NoSQL,SQL等。
3)基础架构支持:云存储,分布式文件系统等。
4)计算结果展现:云计算,标签云,关系图等。
2.大数据存储技术
数据存储技术在应用过程中主要使用的对象是临时文件在加工过程中形成的一种数据流,通过基本信息的查找,依照某种格式,将数据记录和存储在计算机外部存储介质和内部存储介质上。数据存储技术需要根据相关信息特征进行命名,将流动数据在系统中以数据流的形式反映出来,同步呈现静态数据特征和动态数据特征。大数据存储技术同时应满足以下三点要求:存储基础设施应能持久和可靠地存储数据;提供可伸缩的访问接口供用户查询和分析海量数据;对于结构化数据和非结构化的海量数据要能够提供高效的查询、统计、更新等操作。
3.大数据分析技术
大数据结构复杂,数据构成中更多的是非结构化数据,单纯靠数据库BI对结构化数据进行分析已经不太适用,所以需要技术的创新,这就产生了大数据分析技术。
1)数据处理:自然语言处理技术;多媒体内容识别技术;图文转换技术;地理信息技术等。
2)统计和分析:A/B test;top N排行榜;地域占比;文本情感分析技术;语义分析技术等。
3)数据挖掘:关联规则分析;分类;聚类等。
4)模型预测:预测模型;机器学习;建模仿真;模式识别技术等。
4.大数据计算技术
目前采集到的大数据85%以上是非结构化和半结构化数据,传统的关系数据库无法胜任这些数据的处理。如何高效处理非结构化和半结构化数据,是大数据计算技术的核心要点。如何能够在不同的数据类型中,进行交叉计算,是大数据计算技术要解决的另一核心问题。
大数据计算技术可分为批处理计算和流处理计算,批处理计算主要操作大容量、静态的数据集,并在计算过程完成后返回结果,适用于需要计算全部数据后才能完成的计算工作;流处理计算会对随时进入的数据进行计算,流处理计算无须对整个数据集执行操作,而是对通过传输的每个数据项执行操作,处理结果立刻可用,并会随着新数据的抵达继续更新结果。