上QQ阅读APP看书,第一时间看更新
1.5.2 数据分析
数据分析是整个大数据处理流程的核心,因为大数据的价值产生于分析过程。从异构数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整,因为这些技术在大数据时代面临着一些新的挑战,主要有:
(1)数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多。因此在数据分析之前必须进行数据清洗等预处理工作,但是预处理如此大量的数据对于机器硬件以及算法都是严峻的考验。
(2)大数据时代的算法需要进行调整。首先,大数据的应用常常具有实时性的特点,算法的准确率不再是大数据应用的最主要指标。很多场景中算法需要在处理的实时性和准确率之间取得一个平衡,比如在线机器学习(Online Machine Learning)算法。其次,云计算是进行大数据处理的有力工具,这就要求很多算法必须做出调整以适应云计算的框架,算法需要变得具有可扩展性。最后,在选择算法处理大数据时必须谨慎,当数据量增长到一定规模以后,可以从小量数据中挖掘出有效信息的算法并不一定适用于大数据。统计学中的邦弗朗尼原理(Bonferroni's Principle)就是一个典型的例子。
(3)数据结果好坏的衡量。得到分析结果并不难,但是结果好坏的衡量却是大数据时代数据分析的新挑战。大数据时代的数据量大、类型庞杂,进行分析的时候往往对整个数据的分布特点掌握得不太清楚,这会导致最后在设计衡量的方法以及指标的时候遇到诸多困难。大数据分析已被广泛应用于诸多领域,典型的有推荐系统、商业智能、决策支持等。