Chapter 2 第2章 对未来的简单预测
在第1章中,我们介绍了什么是时间序列,以及预测时间序列与传统的回归任务有何不同。你还学习了构建成功的预测项目所需的必要步骤,从定义目标到构建模型、部署模型以及在收集到新数据时更新模型。现在你已经准备好开始预测时间序列了。
你将首先学习如何对未来进行简单预测,这将作为基线。基线模型是一种简单的解决方案,它使用试探法或简单的统计数据来计算预测。开发基线模型并不总是一门精确的科学。它通常需要一些直觉,我们将通过可视化数据和检测可用于预测的模式来获得这些直觉。在任何建模项目中,有一个基线是很重要的,因为你可以使用它来比较你将要构建的更复杂模型的性能。理解模型的性能是否良好的唯一方法是将其与基线进行比较。
在本章中,假设我们希望预测强生公司的季度每股收益。我们可以查看图2.1中的数据集,它与你在第1章中看到的相同。具体来说,我们将使用1960~1979年底的数据来预测1980年四个季度的每股收益。预测期如图2.1中的灰色区域所示。
你可以在图2.1中看到,我们的数据有一个趋势,因为它随着时间的推移而增加。此外,我们有一个季节性模式,因为在一年或四个季度的过程中,我们可以反复观察波峰和波谷。这意味着我们有季节性。
回想一下,我们在第1章分解时间序列时识别了这些分量。这些分量如图2.2所示。我们将在本章后面详细研究其中的一些分量,因为它们将帮助我们获得一些关于数据行为的直觉,这反过来将帮助我们开发一个良好的基线模型。
我们将首先定义什么是基线模型,然后我们将开发4种不同的基线来预测强生公司的季度每股收益。最后用Python和时间序列预测来动手实践。
图2.1 强生公司从1960~1980年季度每股收益(美元)。我们将使用从1960~1979年最后一个季度的数据来建立一个基线模型,该模型将预测1980年季度的每股收益(如灰色区域所示)
图2.2 强生公司1960~1980年季度收益的分解图