上QQ阅读APP看书,第一时间看更新
2.5 不匹配
图2.13 中的横轴是从2021年1月1日开始计算的天数,红色线是真实的数据,蓝色线是预测的结果.2月26日是 2021年观看次数最高的一天,与机器的预测差距非常大,误差为2580.几个模型不约而同地推测2月26日应该是个低点,但实际上,2月26日是一个峰值. 这不能怪模型,因为根据过去的数据,周五晚上大家都出去玩了. 但是2月26日出现了反常的情况,这种情况应该算是另一种错误形式——不匹配(mismatch).
图2.13 另一种错误形式——不匹配
不匹配和过拟合不同,一般的过拟合可以用收集更多的数据来克服,但不匹配是指训练集和测试集的分布不同,训练集再增大其实也没有帮助了.假设在分训练集和测试集的时候,使用2020年的数据作为训练集,使用2021年的数据作为测试集,不匹配的问题可能就会很严重.因为2020年的数据和2021年的数据背后的分布不同.图2.14 演示了图像分类中的不匹配问题. 增加数据也不能让模型做得更好,所以这种问题要怎么解决、匹不匹配,要看对数据本身的理解. 我们可能要对训练集和测试集的产生方式有一些理解,才能判断模型是不是遇到了不匹配的情况.
图2.14 图像分类中的不匹配问题