快乐机器学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.4 总结

自从欧盟的《通用数据保护条例》(General Data Protection Regulation,GDPR)在2018年5月25日生效之后,机器学习的过程需要变得透明且可解释,因为GDPR中规定,企业有义务提供对个人的算法决策的详细解释或关于算法决策的一般信息。这样看来,弄懂机器学习的理论显得尤为重要。至少我们可以知道,当一个模型的VC维度是有限的时,大的训练数据集可以使得训练误差约等于真实误差,那么只需要把精力放在降低训练误差上即可。本章讨论的计算学习理论,并没有涉及深度学习理论,有兴趣的读者可以参考斯坦福大学的相关课程[3],主要通过逼近理论(Universal Approximation Theorem)和调和分析(Harmonic Analysis)来建立神经网络背后的理论体系。此外,希伯来大学计算机科学家和神经学家Naftali Tishby等人提出了“信息瓶颈”理论[4],不但能够解释深度学习的根本原理,还能解释人类的学习过程。就连深度学习始祖Hinton也说过:“信息瓶颈理论是近年来少有的突破,我还得听10000次才能真正理解它。”

本章首先通过NFL定理让读者认识到脱离具体问题而空谈算法的优劣毫无意义,其次,本章的重点是证明机器学习的可行性,核心是用霍夫丁不等式(以及对分、增长函数和突破点等概念)建立以下不等式:

上面介绍的多项式函数和指数函数都是对样本个数来说的,而多项式的阶数是VC维度。只要VC维度有限,样本个数越大,两者的商就越趋近于零,那么训练误差和真实误差就越相近,进而证明机器学习是可行的。虽然机器学习可行,但要使机器能学好,则需要以下几个条件:

● 好的假设空间:存在突破点,使得训练误差和真实误差能够接近。

● 好的数据:数据足够多,使得训练误差和真实误差很接近。

● 好的算法:通过算法可以选出一个训练误差很小的假设。

在实际操作中:

● 从模型复杂度来看,找一个最优VC维度最小化真实误差。

● 从样本复杂度来看,训练数据的数量至少是VC维度的10倍。

本章关于机器学习可行的理论看上去很美,但是在实践中要评估将一个模型推广到新样本中的效果,唯一的办法就是试验,具体有以下两种方法。

● 一种方法是将模型部署到生产环境中,观察它的性能。如果模型的性能很差,就会引起用户抱怨。(

● 另一种方法是将数据分成两个集合:训练集和测试集,用训练集进行训练,用测试集进行测试。模型在新样本中的错误率被称作样本外误差,通过模型对测试集的评估,可以用测试误差预估这个错误。通过这个值可以提高模型在新样本中的性能。更进一步,还可以用验证集评估模型的性能。(

第3章介绍的模型评估选择就是提供一个系统且实操性强的框架,用训练误差来训练模型,用验证误差来选择模型,用测试误差来评估模型。