1.2.2 数据分析与数据挖掘技术的出现
1.大数据时代对数据分析与挖掘技术的需求
随着大数据热的兴起,数据分析与数据挖掘的算法日益成熟,统计学、数据分析的技术手段被引入到大数据处理过程中,起到了重要的作用。
首先,统计学的理论被引入到大数据处理领域,数据统计分析的手段已经变成了数据分析的常规手段。由于大数据的规模比较大,经过数据清洗的有效数据通常符合统计规律,因此信度系数检验、关联性分析、数据的离散度分析(方差、标准差)、聚类分析、主成分分析等被广泛地应用到大数据处理的过程中。目前,这些技术已经被集成到多种计算机信息系统中,发挥着越来越重要的作用。
其次,除了传统的数据分析技术之外,遗传算法、神经网络、语义网络、分布式数据库管理等面向大数据的处理技术已经成熟。
第三,专业的数据挖掘软件、数据推送技术快速发展。应大数据处理的要求,IBM公司、微软公司、Oracle公司都在自己的大型DBMS中集成了数据挖掘技术,强化时间序列特点、支持数据挖掘技术的数据仓已经成为主流数据库系统的重要组件,为基于大数据的数据挖掘提供了强大的技术支撑。
2.数据分析的两种思路
在数据分析的发展过程中,始终伴随着两条思路。其一,面向静态数据的数据分析;其二是面向动态数据的实时数据挖掘。
所谓面向静态数据的数据分析,是指把通过社会调查、科学实验获得的数据,或者从信息系统导出的针对某一时间段的数据,借助数据分析专业软件,对已有数据进行分析。这种分析没有考虑数据的动态性、变化性,往往是针对某一时间段状态的数据分析。
所谓面向动态数据的实时数据挖掘,是指在信息系统中集成数据挖掘算法,以便信息系统能够随时针对动态数据开展分析。这种技术强化时间序列特点、依托支持动态数据采集和集成的数据仓技术,开展实时的数据分析。它对用户具有很高的要求,已经成为主流数据库系统的重要组件。