2.4 统计、概率和数据挖掘
统计、概率、数据挖掘,这几个词经常伴随出现,尤其是统计和概率两个概念,几乎就像自然界的伴生矿一样分不了家,有很多出版社都出版过叫做《概率统计》的书籍。
本书不准备从学术的角度对统计和概率做严格的区分,在平时工作中用的统计大多为计数功能,如在使用Excel时会用到COUNT、SUM、AVERAGE等统计函数;如软件开发中,在用SQL语言对数据库的某些字段进行计数(count)、求和(sum)、求平均(avg)等函数。而概率的应用大多则是根据样本的数量以及占比得到“可能性”和“分布比例”等描述数值。当然,概率的用法远不止这些,在数据挖掘中同样用到大量概率相关的算法,后面会有相当的篇幅进行说明。
数据挖掘这个词很多时候是和机器学习一起出现的,现在网上对这两个词的关系也是莫衷一是。有的说数据挖掘包含机器学习,有的说机器学习是数据挖掘发展的更高阶段。在笔者看来,数据挖掘和机器学习这样的词汇命名应该是信息科学自然进化和衍生出来的,带有一定的约定俗成的色彩,人们的看法见仁见智也在情理之中。
我的观点是这样。
首先我认为没有必要一定要给两个词汇划一个界限,或者一定要对它们做严格的概念区分,因为区分的标准到目前本就没有科学而无争议的界定,况且能不能分清一个算法属于数据挖掘的范畴还是机器学习的范畴对于算法本身使用是没有任何影响的,这两个词大家如果想听解释的话,不妨只从字面意思去理解就已经足够了。
数据挖掘——首先是有一定量的数据作为研究对象,挖掘——顾名思义,说明有一些东西并不是放在表面上一眼就能看明白,要进行深度的研究、对比、甄别等工作,最终从中找到规律或知识,“挖掘”这个词用得很形象。
机器学习——先想想人类学习的目的是什么,是掌握知识,掌握能力,掌握技巧,最终能够进行比较复杂或者高要求的工作。那么类比一下机器,我们让机器学习,不管学习什么,最终目的都是让它独立或至少半独立地进行相对复杂或者高要求的工作。这里提到的机器学习更多是让机器帮助人类做一些大规模的数据识别、分拣、规律总结等人类做起来比较花时间的事情。但是请注意,与数据挖掘一起出现的这个机器学习概念和我们说的“人工智能”还是相差甚远,因为这里面对“智能”的考究程度实在是太低了。