2.1 机器学习及基本概念
机器学习(Machine Learning)是近几十年来迅猛发展的一个学科领域。以计算机为载体,机器学习涉及统计学、概率论、凸优化、程序设计等多个子领域。机器学习本身并没有一个严格的定义,其核心是:从已有的数据出发,让计算机归纳出一个通用的模型,此模型可以被用于预测新数据。
来自卡耐基·梅隆大学的Tom Mitchell教授在1997年给出了一个机器学习的通用定义[Mitchell et al.,1997]:
定义1 假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
根据上述表达,我们将有监督的机器学习定义如下。
定义2 分别令为样本和标签空间,令表示训练数据,其中为训练数据中的第i个样本,为其对应的数据标签。我们令为机器学习的目标函数,为其满足的假设空间。则机器学习的学习目标可以表示为
其中,ℓ(·,·)为损失函数。
分类任务中通常以交叉熵损失(Cross-entropy loss)作为损失函数,而回归问题则通常以最小均方误差(Mean squared error)为损失函数。
上述机器学习的形式化定义也可以有不同的表达形式。例如,如果以最大似然估计(Maximum Likelihood Estimation,MLE)来表示学习过程,则上述定义可以表示为
其中,θ为模型待学习参数,L(θ|xi)为似然函数。似然函数可以被定义为
L(θ|x1,x2,···,xn)=fθ(x1,x2,···,xn). (2.1.3)
机器学习方法主要可以分为有监督方法、半监督方法、无监督方法,从模型角度则可以分为生成式模型和判别式模型。在过去几十年里,机器学习取得了长足进步。关于机器学习的更多知识可以在周志华老师的《机器学习》专著[周志华,2016]中找到。