1.1 时间序列简介
了解和进行时间序列预测的第一步是学习什么是时间序列。简而言之,时间序列只是一组按时间排序的数据点。此外,数据通常在时间上是等间隔的,这意味着每个数据点之间的间隔相等。简单地说,数据可以每小时或每分钟记录一次,也可以按月或按年取平均。时间序列的一些典型示例包括特定股票的收盘价、家庭用电量或室外温度。
时间序列
时间序列是一组按时间排序的数据点。
数据在时间上间隔相等,即每小时、每分钟、每月或每季度记录一次。时间序列的典型示例包括股票的收盘价、家庭用电量或室外温度。
让我们考虑一个数据集,它代表1960~1980年强生公司股票的季度每股收益(Earnings Per Share, EPS;单位为美元),如图1.1所示。我们将在本书中经常使用这个数据集,因为它有许多有趣的属性,可以帮助你学习用于解决更复杂的预测问题的高级技术。
图1.1 强生公司1960~1980年季度收益(美元)呈现出积极的趋势和周期性行为
正如你所看到的,图1.1清楚地表示了一个时间序列。数据按时间索引,如横轴所示。此外,数据在时间上是等间隔的,因为它是在每年的每个季度末记录的。我们可以看到数据有一个趋势,因为数值随着时间的推移而增加。我们还看到,每年的收益都在上下波动,而且这种模式每年都在重复。
时间序列的分量
我们可以通过观察时间序列的三个分量来进一步了解时间序列:趋势分量、季节性分量和残差分量。事实上,所有的时间序列都可以分解为这三个分量。
可视化时间序列的分量称为分解。分解被定义为将时间序列分离成其不同分量的统计任务。我们可以对每个单独分量进行可视化,这将帮助我们识别数据中的趋势和季节性模式,这并不能总是通过查看数据集直接获得。
让我们仔细看看强生公司季度每股收益的分解,如图1.2所示。你可以看到如何将观测到的数据拆分为趋势、季节性和残差。让我们更详细地研究这个图表的每一部分。
图1.2 1960~1980年强生公司季度收益的分解
首先,顶部的图表记为观测值,它简单地显示了记录的时间序列(如图1.3所示)。纵轴表示强生公司季度每股收益值(美元),而横轴表示时间。它基本上是图1.1的再现,并且它显示了图1.2的趋势、季节性和残差图合并后的结果。
图1.3 关注观测图
然后我们有了趋势分量,如图1.4所示。同样,请记住,纵轴表示数值,而横轴仍然表示时间。在时间序列中,趋势被定义为缓慢移动的变化。我们可以看到,它开始是平缓的,然后急剧上升,这意味着我们的数据呈上升趋势。趋势分量有时被称为水平。我们可以将这个趋势分量视为试图通过大量数据点画一条线来显示时间序列的大致方向。
接下来,我们看到季节性分量,如图1.5所示。季节性分量捕捉季节性变化,这是在固定时间段内发生的循环。我们可以看到,在一年或四个季度的过程中,每股收益开始缓慢增加,然后在年底再次减少。
图1.4 关注趋势分量。在我们的序列中有一个趋势,因为分量不平坦。它表明随着时间的推移,数值不断增加
图1.5 关注季节性分量,我们的时间序列有周期性的波动,这表明收益每年都在上下波动
请注意纵轴显示负值会怎样,这是否意味着每股收益为负?显然,这是不可能的,严格地讲,因为我们的数据集具有正值。因此,我们可以说,季节性分量显示了我们偏离趋势如何。有时我们有一个正偏差,我们在图中观测到一个峰值。有时,我们有一个负偏差,我们在图中会观测到一个波谷。
最后,图1.2中的最下面一张图展示了残差,这是趋势或季节性分量都无法解释的。我们可以认为残差是趋势和季节性图叠加在一起,并将每个时间点的值与观测图进行比较。对于某些点,我们可能会得到与观测值完全相同的值,在这种情况下,残差将为零。在其他情况下,该值不同于观测值,因此,残差图显示了那些必须添加到趋势和季节性分量中的数据,以便调整结果并获得与观测值相同的值。残差通常对应于随机误差,也称为白噪声,我们将在第3章中讨论。它们代表我们无法建模或预测的信息,因为它是完全随机的,如图1.6所示。
图1.6 关注残差分量,残差不能用趋势和季节性分量来解释
时间序列分解
时间序列分解是我们将时间序列分解为趋势、季节性和残差等分量的过程。
趋势代表了时间序列中的缓慢变化。它负责使该序列随着时间的推移逐渐增加或减少。
季节性分量代表了该序列中的季节性模式。这些循环在一个固定的时间段内反复发生。
残差代表了趋势和季节性分量无法解释的行为。它们对应于随机误差,也称为白噪声。
我们已经直观地看到每个分量如何影响预测工作。如果一个时间序列呈现出某种趋势,那么我们就会期待它在未来会继续呈现这种趋势。同样,如果我们观察到强烈的季节性效应,这种情况很可能会持续下去,预测必须反映这一点。在本书的后面,你将看到如何考虑这些分量,并将它们包含在模型中以预测更复杂的时间序列。