2.1 机器学习及基本概念_迁移学习导论-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

机器学习（Machine Learning）是近几十年来迅猛发展的一个学科领域。以计算机为载体，机器学习涉及统计学、概率论、凸优化、程序设计等多个子领域。机器学习本身并没有一个严格的定义，其核心是：从已有的数据出发，让计算机归纳出一个通用的模型，此模型可以被用于预测新数据。

来自卡耐基·梅隆大学的Tom Mitchell教授在1997年给出了一个机器学习的通用定义[Mitchell et al.，1997]：

定义1　假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。

根据上述表达，我们将有监督的机器学习定义如下。

定义2　分别令为样本和标签空间，令表示训练数据，其中为训练数据中的第i个样本，为其对应的数据标签。我们令为机器学习的目标函数，为其满足的假设空间。则机器学习的学习目标可以表示为

其中，ℓ（·,·）为损失函数。

分类任务中通常以交叉熵损失（Cross-entropy loss）作为损失函数，而回归问题则通常以最小均方误差（Mean squared error）为损失函数。

上述机器学习的形式化定义也可以有不同的表达形式。例如，如果以最大似然估计（Maximum Likelihood Estimation，MLE）来表示学习过程，则上述定义可以表示为

其中，θ为模型待学习参数，L（θ|xi）为似然函数。似然函数可以被定义为

L（θ|x1，x2，···，xn）=fθ（x1，x2，···，xn）.　（2.1.3）

机器学习方法主要可以分为有监督方法、半监督方法、无监督方法，从模型角度则可以分为生成式模型和判别式模型。在过去几十年里，机器学习取得了长足进步。关于机器学习的更多知识可以在周志华老师的《机器学习》专著[周志华，2016]中找到。