3.6 总结_快乐机器学习-QQ阅读男生玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

3.6 总结

在人类学习和机器学习中，有很多可类比的名词，例如下表所示。

机器学习可以从人类学习中得到很多灵感，而机器学习的核心就是构建推广能力强的模型，使其适应新数据。这个模型不能欠拟合，更不能过拟合。如何把握这个度，需要通过一个性能度量（误差函数）来评估，再从多个模型中选出一个最优模型。

1.如何评估模型？

● 永远不要看训练误差，要看真实误差。

● 由于真实误差不可计算，通常用测试误差或验证误差来代表它。

2.如何划分数据集？

● 如果数据足够多（达到十万级别），则将数据集按6∶2∶2的比例来划分训练集、验证集和测试集。

● 如果数据不够多，则分为以下两种情况。

如果算力不够，则采用5折或10折交叉验证法来划分训练集和验证集。

如果算力足够，则可以考虑采用留一交叉验证法。

3.如何选择模型？

● 用交叉验证误差作为基准，选取最小的交叉验证误差对应的模型。

● 在选择模型时，遵循“简单为大”的原则（除非提高模型的精度对模型有显著的增益）。此外，可解释性、高效性和可扩展性也是需要考虑的因素。

至此，前3章在没有涉及具体机器学习模型的情况下，介绍了机器学习的定义及组成元素（数据、任务和性能度量），证明了机器学习的可行性（在VC维度是有限的情况下），设计了一套系统的机器学习模型评估和选择的框架（通过划分训练集、验证集、测试集）。打牢基础后，接下来读者就可以专心学习机器学习模型和算法了，第4章从最简单的线性回归模型开始讲解。