人人可懂的深度学习
上QQ阅读APP看书,第一时间看更新

1.4 机器学习的关键要素

前文有关确定一组输入和输出数据之间的算术运算关系的例子说明了机器学习的三大关键要素:

1. 数据(已知的一组样本)。

2. 函数集,算法从函数集中找出与数据最匹配的函数。

3. 拟合度度量,衡量函数集中的每一个函数能够在多大程度上与数据相匹配。

机器学习想要成功,上述三个要素就必须是正确的。接下来,我们逐一详细介绍这三个要素。

前文已介绍了数据集的概念:数据集是一个二维表格(或n×m的矩阵)[1],其中每一行包含一个样本的信息,而每一列则是对应域中的一个特征的信息。例如,表1-2将本章第一个算术运算函数例子中的输入输出样本表示成了数据集的形式。该数据集含有四个样本(也称为实例),每个样本由两个输入特征和一个输出(或目标)特征表示。设计和选择表示样本的特征是机器学习中一个非常重要的步骤。

表1-2 一个简单的用表格表示的数据集

000

与计算机科学和机器学习中的常见情形一样,特征选择也需要做出某种权衡。如果我们在数据集中仅包含最少数量的特征,那么一些有用的特征就可能被排除在数据之外,从而导致机器学习算法提取的函数无法有效运行。相反,如果我们使用尽可能多的特征,那么数据中就可能会包含无关的或者冗余的特征,这同样也会导致提取的函数无法有效运行。引起以上问题的一个原因是使用的无关或冗余特征越多,机器学习算法就越有可能从这些特征之间的错误相关性中提取模式。这种情形下,算法会无法区分数据中的真实模式和仅在数据集特定样本中才存在的错误模式。

要为数据集找到正确的特征,需要熟悉相关领域的专家参与,需要对每个特征的分布和特征之间的相关性进行统计分析,还需要不断试错和检验模型使用或不使用特定特征时的性能。这样的数据集设计过程通常耗时耗力,但却是机器学习成功的关键。事实上,找出对于给定任务来说有用的特征通常正是机器学习的真正价值所在。

机器学习的第二个要素是候选函数集,算法将这些函数视为对数据中模式的潜在解释。在前文的算术运算函数的例子中,候选函数被限定为四种:加法减法乘法除法。通常而言,候选函数集由机器学习算法的归纳偏差和所使用的函数表示形式(或模型)决定。例如,神经网络模型就是一种非常灵活的函数表示形式。

机器学习的第三个也是最后一个要素是拟合度度量。拟合度度量也是一个函数,它的输入是机器学习算法将某个候选函数应用到数据上得到的输出值,它将该值以某种方式与数据对应的目标输出值相比较,比较结果反映了该候选函数能够与数据相拟合的程度。针对前文的算术运算函数的例子,一个有效的拟合度度量是统计候选函数的数据输出值与其目标输出值相匹配的样本数量。根据这样的拟合度度量函数,乘法运算的拟合度为4,加法运算的拟合度为1,而除法和减法的拟合度为0。在机器学习中有很多拟合度度量函数可用,从中选择正确的拟合度度量函数是机器学习成功的关键。设计新的拟合度度量函数是机器学习研究中一个非常活跃的方向。根据数据集表示形式、候选函数和拟合度度量函数的定义,机器学习算法可以分为三类:有监督学习、无监督学习和强化学习。


[1] 有一些场景需要更加复杂的数据集表示形式。以时间序列数据为例,有时可能会用由沿着时间轴的一系列二维矩阵构成的三维张量形式表示,其中时间轴为一个维度,每个二维矩阵表示某个时间点上的系统状态。所谓张量(tensor),是将矩阵(matrix)概念推广到更高维度的形式。