1.1.1 数据分析能力培养的背景
随着信息化的普及和各类信息系统的应用,各类信息系统中都积累了大量的原始数据,分析这些数据内部所蕴含的规律、预测相关系统的运行趋势,已经成为当代信息处理的主要任务。大数据处理就是应时代的需求出现并发展起来的,大数据知识服务是为适应信息服务业智慧化、协作化、绿色化、先觉化和泛在化的发展趋势而衍生的一种基于网络的信息服务新模式,用以对结构化、半结构化及非结构化数据进行多维度处理;是嵌入式协作化知识服务模式的一种新发展,是现代信息服务理念的具体体现。
对数据分析能力培养的研究就是在大数据研究的背景下进行的。对大数据的研究,主要包括了以下几个领域:
1.对大数据概念和属性的研究
到底什么是“大数据”呢?维基百科上说:大数据指的是“网络公司日常运营所生成的和积累用户网络行为所获得的海量数据”。“大数据”的出现不是一个偶然的事情,它是在信息化、网络化高度发达的今天,在这个数据满天飞的时代所必须要经历的过程。“大数据”是一个术语,是一个带有文化基因和营销理念的词汇,但同时也反映了科技领域发展中的趋势,这种趋势为理解这个世界和做出决策开启了一扇新的大门。
大数据不是一种新技术,也不是一种新产品,而是一种新现象。大数据具有以下4个特点(简称为4V)。①数据体量(Volumes)巨大,大型数据集的数据量可以达到TB 级(1012字节级别),甚至PB 级别(1015字节级别)。②数据类别(Variety)繁多,数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。③价值(Value)密度低,以视频为例,在连续不间断监控过程中,可能有用的数据仅仅一两秒钟。④处理速度(Velocity)快,在大数据处理中包含大量在线或实时数据分析处理的需求,通常要求满足1秒定律(也就是说,即使是针对大量在线数据的处理,也应该在1秒钟的时间内给出响应)。
2.对大数据处理流程的研究
大数据的处理流程,是指在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,对结果按照一定的标准统一存储。然后,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说,可以分为数据获取与集成、数据分析以及数据解释。
大数据的一个重要特点就是数据类型多样性,这就意味着数据来源极其广泛,数据类型极为繁杂,这种复杂的数据环境给大数据的处理带来极大的挑战。要想处理大数据,首先必须对数据源提供的数据进行筛选和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在此过程中,应该注意对数据进行必要的清洗,清理掉垃圾数据和无效信息,保证数据质量及可信性,同时还要兼顾大数据的模式和数据内在的关系。
数据分析是整个大数据处理流程的核心,因为大数据的价值产生于分析过程。从异构数据源抽取和集成的数据构成了数据分析的原始数据,然后根据不同应用的需求可以从这些数据中选择全部或部分进行分析。鉴于大数据的特点,传统的分析技术如数据挖掘、机器学习、统计分析可以应用在大数据处理中,在特定情况下则需要根据大数据的时代需要做出调整。
尽管数据分析是大数据处理的核心,但普通用户往往更关心结果的展示。比较传统的就是以文本形式简要地陈述分析结论,也可以直接在电脑终端上显示结果。这种方法在面对小数据量时是一种很好的选择。但是,大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,因此借助于可视化的技术或者使用特定的数字指标来呈现数据分析结果是必要的。
3.对大数据挖掘、分析技术的研究
随着大数据热的兴起,数据分析与数据挖掘的算法日益成熟,统计学、数据分析的技术手段被引入到大数据处理过程中,起到了重要的作用。
首先,统计学的理论被引入到大数据处理领域,数据统计分析的手段已经变成了数据分析的常规手段。由于大数据的规模比较大,经过数据清洗的有效数据通常符合统计规律,因此信度系数检验、关联性分析、数据的离散度分析(方差、标准差)、聚类分析、主成分分析等被广泛地应用到大数据处理的过程中。目前,这些技术已经被集成到多种计算机信息系统中,发挥着越来越重要的作用。
其次,除了传统的数据分析技术之外,遗传算法、神经网络、语义网络、分布式数据库管理等面向大数据的处理技术已经成熟。
第三,专业的数据挖掘软件、数据推送技术快速发展。应大数据处理的要求,IBM公司、微软公司、Oracle公司都在自己的大型数据库处理系统(即DBMS)中集成了数据挖掘技术,强化时间序列特点、支持数据挖掘技术的数据仓已经成为主流数据库系统的重要组件,为基于大数据的数据挖掘提供了强大的技术支撑。