1.1 数据挖掘简介
数据挖掘始于20世纪80年代末,早期主要是指从数据库中发现知识(Knowledge Discovery in Database, KDD)。数据挖掘的概念源于1995年在加拿大召开的第一届国际知识发现与数据挖掘大会,随后数据挖掘迅速在世界范围内成为研究的热点,大量的学者和企业纷纷投入到数据挖掘理论研究和工具研发的行列中来。1997年,第三届KDD国际学术大会上举行了数据挖掘工具的实测活动。从此,数据挖掘技术进入了快速发展时期。
数据挖掘(Data Mining)是KDD的核心部分,它是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式有规则、概念、规律和模式等。进入21世纪后,数据挖掘成为一门比较成熟的交叉学科,数据挖掘技术也伴随着信息技术的发展日益成熟起来。
随着数据挖掘技术的发展,其应用领域也在不断地扩展和深化。常见的数据挖掘的行业应用如表1-1所示。
表1-1 常见的数据挖掘的行业应用
数据挖掘常常要利用机器学习提供的算法来分析海量数据,而深度学习作为一种机器学习算法,在很多领域的表现都优于传统机器学习算法,如在图像分类与识别、语音识别与合成、人脸识别、视频分类与行为识别等领域都有着不俗的表现。深度学习能够让机器模仿视听和思考等人类行为活动,解决很多复杂的模式识别难题,其最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
2006年,杰弗里·辛顿首次提出深度学习的概念。后来,2015年第9期的《自然》杂志提到了与深度学习定义相关的内容:深度学习方法是具有多层次特征描述的特征学习,通过一些简单但非线性的模块将每一层特征描述(从未加工的数据开始)转化为更高一层的、更为抽象的特征描述。
深度学习特指基于深层神经网络实现的模型或算法,其关键在于这些层次的特征不是由人工设计的,而是使用一种通用的学习步骤从数据中学习并获取的。深度学习能够自动地将简单的特征组合成更加复杂的特征,并使用这些组合特征解决问题。
虽然深度学习在研发初期受到了很多大脑工作原理的启发,但现代深度学习技术的发展并不拘泥于模拟人脑神经元和人脑的工作机制,而是已经超越了神经科学的观点,可以更广泛地适用于各种并不是受神经网络启发而产生的机器学习框架。