数学实验
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 回归分析的实验

2.1 回归分析方法介绍

一、回归分析的主要内容

“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿收集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。当高尔顿对试验数据进行深入研究时发现了一个很有趣的现象:当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们儿子的身高比他更矮的概率要小于比他更高的概率。这反映出一个规律,即儿子的身高有向他们父辈的平均身高回归的趋势,这就是所谓的回归效应。

相互有联系的现象(或变量)之间的联系方式及密切程度各不相同。变量之间的关系可以分成两类:一类是确定的函数关系,另一类是不确定的统计相关关系。变量之间的统计相关关系可以由相关分析和回归分析来研究。回归分析是研究一个变量关于另一个(或一些)变量的依赖关系的计算方法和理论。目的在于通过后者的已知或设定值,去估计和预测前者的(总体)均值。前一个变量称为被解释变量或响应变量,后一个变量称为解释变量或自变量。

回归分析是一种预测性的实验方法,它研究事物之间不完全确定的相关变量之间的数量关系。回归分析是数学实验和分析数据的重要工具。回归分析首先是根据所研究问题和目的设置因变量y,再选取与y有统计关系的一些变量作为自变量。这种方法通常用于预测分析、时间序列模型以及发现变量之间的因果关系。例如,探讨司机的鲁莽驾驶与道路交通事故之间的数量关系,就可以采用回归分析的办法进行研究。

回归分析研究的内容主要包括线性回归、非线性回归以及含有定性变量的回归等。

二、建立实际问题回归模型的过程

首先是根据一个具体的经济或社会问题设置相关的指标变量,然后收集相关的数据,根据收集的数据构建理论模型,由已有的数据确定模型的未知参数,再对问题进行合理性检验,运用检验后的模型进行分析、预测和控制等。

1. 指标设置

回归分析主要是揭示事物之间相关变量之间的数量联系。首先需要根据所研究问题的目的设置因变量y,也称为被解释变量。其次选取与y有统计关系的一些变量x1x2,...,xn作为自变量,也称为解释变量。对于一个具体的研究而言,当研究的目的确定后,被解释变量也就随之确定下来。而解释变量的确定并不十分容易,首先是因为我们对研究问题认识的局限性,无法保证选取的变量就是被解释变量的最重要因素;其次是按照模型要求选取的变量应是彼此不相关的。但是在实际问题中很难找到彼此之间完全不相关的变量;最后,对于研究的实际问题,有些重要的数据可能无法获得,只能将该因素分解成几个因素或选取能够近似代表该指标的变量来替代。

选取的指标并不是越多越好。一个模型漏掉重要的指标会影响模型的使用效果,但是选取的指标过多,同样会因为喧宾夺主而冲淡主要影响因素的作用。此外,选取变量过多,难免会出现相关性过高而产生对某一个或某几个因素叠加造成共线性问题;并且变量选取过多必然会造成因为计算量过大导致的精度下降问题。

2. 数据的收集

数据的收集和整理是建立模型进行数学实验的一项重要基础工作。样本数据的质量,直接决定了回归模型的表达程度。

常用的样本数据分时间序列数据和截面数据。时间序列数据就是按照时间顺序排列的统计数据,如新中国成立以来每年的国民生产总值、历年接受高等教育的人数等都是时间序列数据。时间序列数据的使用需要特别注意数据的可比性和数据的统计口径。例如,讨论20世纪60年代人们的消费水平和现在人们的消费水平,就需要对收集到的当年的消费水平数据进行转换,而不能直接进行比较,否则就失去了本来的意义。

截面数据是指同一个时间截面上的数据。例如,2017年我国不同省份城镇居民的收入和消费支出之间的关系数据就是截面数据。使用截面数据进行分析时最容易产生的问题是异方差。

无论是时间序列数据还是截面数据,为了使模型的参数估计更为有效,通常要求样本量的容量n大于解释变量的个数p。当然对于np的关系到底多少更为合理,没有一个统一的要求。英国统计学家肯德尔(M.Kendall)在《多元统计》一书中认为样本量n的个数最好是解释变量p个数的10倍以上。

3. 数据的初步处理

在利用给定数据进行回归分析之前,应该先对数据进行初步的分析,处理异常值。异常值的判断及处理见第1章,在数据量比较大,且异常值较少时,可以通过直接去掉该点的方式,使用新数据进行回归分析,增加回归分析的拟合精度。如果选取样本的数据量本身就较小,或者问题研究中就存在一些特殊情况需要特别关注的话,则应该根据具体问题进行深入细致的分析。详细解决请参见【4】。

三、线性回归模型与回归方程

1. 回归模型

如果变量x1x2,...,xp与随机变量y之间存在相关关系,即当变量x1x2,...,xp取定值后,y有相应的概率分布与之对应。随机变量y与相关变量x1x2,...,xp之间的概率模型为

其中,随机变量y称为被解释变量或因变量,x1x2,...,xp称为解释变量或自变量。上述的随机方程分为两部分:一部分是由一般变量x1x2,...,xp的确定性关系表达的部分fx1x2,...,xp),另一部分是x1x2,...,xp的确定性关系不好描述的随机误差部分ɛ。其中随机误差包含下列的影响因素:

(1)由于人们认识的局限性或其他各种原因制约未引进回归模型的,但是对回归模型产生影响的因素;

(2)样本数据采集过程中变量观测值的观测误差;

(3)模型设定的误差;

(4)其他随机因素;

这些因素应该是微小的,不占模型主要地位的部分。

2. 线性回归模型

当模型(2-1)中回归函数fx1x2,...,xp)为线性函数时,(2-1)可以表达成:

其中β0β1β2,...,βp为未知参数,称为回归系数。线性回归模型的“线性”是指β0β1β2,...,βp这些未知参数是线性的。线性回归是回归模型中最重要的部分。一方面是因为线性模型的应用最广泛,另一方面是因为许多非线性的模型可以经过适当的转换化为线性模型进行处理。

对于一个实际问题,如果已经获得了n组观测数据(xi1xi2,...,xipyi)(i=1,2,...,n),则线性回归方程可以表示为:

写成矩阵表示就是:

其中:X是一个n×(p+1)阶矩阵,称为回归设计矩阵或资料矩阵。

3. 回归模型的基本假设

如果(xi1xi2,...,xipyi)(i=1,2,...,n)为变量的一组观测值,则线性回归模型的未知参数可以通过对变量的观察值来进行估计和拟合得到具体数值。为了对模型的参数进行估计,首先需要对回归模型进行基本假设:

(1)解释变量x1x2,...,xp是确定性的非随机变量,观测值xi1xi2,...,xipyi是常数。

(2)等方差及随机误差不相关的假设:

Eεi)=0 i=1,2,...,n,  ij=1,2,...,n

(3)正态性假设:

εiN(0,σ2i=1,2,...,nε1ε2,...,εn相互独立。

(4)样本量的个数多于解释变量的个数,即n>p

4. 线性回归方程

描述y的期望值依赖于x1x2,...,xp的线性方程,称为多元线性回归方程。

根据回归模型的假定,多元线性回归方程为

多元线性回归方程描述了因变量y的期望与自变量x1x2,...,xp之间的关系。例如,两个自变量的多元线性回归方程形式为

可以在三维空间中将图像画出来,二元线性回归方程的图像是三维空间中的一个平面,如图2-1所示。

图2-1 二元线性回归方程的直观图

5. 线性回归方程系数的解释

首先以一个实际案例进行说明。

例2.1 建立手机销售量的预测模型时,用y表示手机的销售量,x1表示手机的销售价格,x2表示消费者的可支配收入,则可以建立二元线性回归模型为

对式(2-7)两边取期望得

在式(2-8)中,保持x2不变,为一个常数,则:,即β1可以解释为在消费者的可支配收入x2不变的情况下,手机的价格x1每增加一个单位,手机销售量y的平均增加速度。一般来讲,随着手机的价格上升,手机的销售量是减少的,因此β2的符号应该是负的。

在式(2-8)中,如果x1保持不变,为一个常数,则:,即β2可以解释为在手机价格x1不变的情况下,消费者的可支配收入x2每增加一个单位,手机销售量y的平均增加速度。一般来讲,随消费者可支配收入的增加,手机的销售量是增加的,因此β2的符号应该是正的。

对一般含有p个自变量的多元线性回归而言,每个回归系数βi表示在回归方程中其他自变量保持不变的情况下,自变量xi每增加一个单位时,因变量y的平均增加程度。多元回归中的回归系数称为偏回归系数,本书中也称为回归系数。

5. 估计的多元线性回归方程

由于回归方程中的参数β0β1β2,...,βp是不知道的,需要利用样本数据对它们进行估计。当用样本数据去估计参数时,就得到了估计的回归方程,一般形式为

式中,,...,是参数β0β1β2,...,βp的估计值,称为偏回归系数,y的估计值。表示在x1x2,...,xi-1xi+1,...,xp不变的情况下,xi变化一个单位时因变量y的平均变动量。

6. 回归方程的参数估计

回归方程中的参数,...,一般可以用普通最小二乘法(OLS)、极大似然法(ML)或矩估计(MM)等方法进行估计。Matlab、SPSS、STATA等软件均可以方便地根据样本数据进行未知参数的估计。

本书仅介绍最小二乘估计。也就是使得残差平方和

由此通过微积分求偏导数,可以求出,...,的方程组为

np+1且X′X为非奇异矩阵时,可以通过普通最小二乘法或极大似然估计的方法进行参数估计,得到:

其中:

四、回归方程的拟合优度

回归方程在一定程度上描述了因变量y和自变量x1x2,...,xp之间的数量关系,根据这一方程中自变量x1x2,...,xp的取值来估计及预测y的值。其中估计及预测的精度取决于回归方程对观测数据的拟合程度。回归方程与各观测点的接近程度称为回归方程对数据的拟合优度。一般用多重判定系数进行描述。在多元线性回归中,回归平方和占总平方和的比例称为多重判定系数,计算公式为

其中SSR是回归平方和,SST为总平方和,SSE为残差平方和。

在该公式中,当自变量增加时,会使得预测误差变得比较小,从而减少残差平方和。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R2也会增大,为了避免该问题,统计上经常用修正的多重判定系数来代替多重判定系数。修正判定系数的计算公式为

五、回归方程的显著性检验

回归分析的目的是根据建立的估计方程去估计预测y的值。当我们根据样本进行数据拟合时,实际已经假定了自变量x1x2,...,xp与因变量y之间存在线性关系,并且假定误差项ε服从正态分布,并且是等方差的,但这些假设是否成立需要进行检验。估计的方程只有通过了检验才能用于预测和估计。通常回归方程的检验分成线性关系的检验和回归系数的检验两种。

1. 线性关系检验

就是检验因变量yp个自变量之间是否存在显著的线性关系,也称为显著性检验。具体步骤:

第一步:提出假设H0β1β2=...=βp=0 H1β1β2,...,βp至少有一个不为0;

第二步:计算检验的统计量:

第三步:做出统计决策。在给定显著性水平α(通常最常见的α=0.05,常用的还有α=0.1及α=0.01)等)的情况下,根据分子自由度为p,分母自由度为n-p-1,查F分布表得到Fα。若F>Fα,则拒绝原假设;否则不拒绝原假设。一般计算机软件输出的结果都提供P值,可以通过P值进行检验,当P<α时拒绝原假设,否则不拒绝原假设。通常软件默认的α的值为0.05。

只有当检验拒绝了原假设,才能认为因变量yp个自变量总体之间存在显著的线性关系。此时并不意味着y与每个系数之间都存在着线性关系。要判断每个自变量对因变量y的影响是否显著,则需要对各个回归系数分别进行检验。

2. 回归系数的检验

回归系数检验的具体步骤为:

第一步:提出假设:H0βi=0 H1βi≠0(i=1,2,...,p);

第二步:计算检验的统计量:

其中,为回归系数分布的标准差,

第三步:做出统计决策。在给定显著性水平α的情况下,根据自由度为n-p-1,查t分布表得到。若,则拒绝原假设;否则不拒绝原假设。一般计算机软件输出的结果通过P值进行检验,当P<α时拒绝原假设,否则不拒绝原假设。只有拒绝了原假设,才能认为xi的系数βi≠0,即yxi存在线性关系。

六、多重共线性

当回归模型中使用两个及两个以上的变量时,这些自变量之间往往会包含重复的信息,并且为线性相关的。例如,探讨银行的不良贷款y与贷款余额及累计应收贷款之间是否存在线性关系,此时自变量贷款余额和累计应收贷款之间就存在很强的相关关系,提供重复的信息。

1. 多重共线性所产生的问题

当回归模型中两个或两个以上的变量之间彼此线性相关时,称回归分析中存在多重共线性。在实际问题的研究过程中,自变量之间存在多重共线性是很常见的。当研究的经济问题涉及时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,容易存在共线性。例如,研究我国城镇居民的消费状况时,影响居民消费的因素有很多,一般有职工平均工资、银行利率、全国零售物价指数、国债利率、货币发行量、居民储蓄额等,这些因素显然既对居民的消费产生重要影响,同时彼此之间又存在很强的相关性。即便是利用截面数据建立的回归方程,也常常因为变量选取和数据获取等因素造成高度相关的情况。例如,研究某地区粮食产量的模型时,讨论以粮食的产量为因变量y,以农民的农业资金投入x1、肥料支出费用x2和浇水面积x3之间的关系。从单独因素来看,三者都是影响粮食产量的重要因素。但是综合进行分析就会发现,农民的农业资金投入x1已经用肥料支出费用x2和浇水面积x3表达出来,从而造成多重共线性。去除农民的农业资金投入x1,再进行回归,会发现模型的拟合结果和预测的效果都比之前理想很多。

回归方程中变量之间多重共线性的存在会造成回归结果的混乱,做出错误的拟合。

在实际问题的研究中,回归模型存在完全共线性的可能性并不大,经常遇到的是存在近似共线性的情况。一般来讲,自变量之间的相关程度越高,多重共线性就越严重,回归系数估计值的方差越大,回归系数的置信区间就越宽,估计的精度就会大幅下降,使估计值的稳定性变差,进一步导致回归方程整体高度显著时,一些回归系数通不过显著性检验,回归系数的正负号与预期估计的符号相反,造成无法解释回归方程等问题。

利用模型去做经济分析时,要尽可能避免多重共线性。利用模型进行经济分析,只要保证自变量的相关模型在未来时期保持不变,即使回归模型中包含严重的多重共线性,也可以得到较好的预测结果,如果不能保证自变量的相关模型在未来时期保持不变,则多重共线会对回归预测产生严重的影响。

2. 多重共线性的判断

在建立好的回归方程后,可以通过以下一些指标来判断回归方程是否存在多重共线性。

第一个指标:相关系数。对自变量进行相关性分析,当两个自变量的相关系数高于0.8时,表明回归方程存在多重共线性。需要说明的是,当两个自变量的相关系数低时,并不能表示这两个变量之间不存在多重共线性。

第二个指标:方差扩大因子。一般统计软件都会提供VIFj的值。

其中,为自变量xj对其他p-1个变量的复决定系数,度量了自变量xj与其他p-1个自变量的线性相关程度。这种相关程度越强,说明自变量之间的多重共线性越严重。越接近于1,VIFj的值就越大。经验上,当VIFj≥10时,就说明xj与其他p-1个自变量之间存在严重多重共线性,且这种多重共线性会过度影响最小二乘估计的结果。

第三个指标:容忍度。有些软件提供的值,即容忍度(tolerance)。当Tolj≤0.1时,认为xj与其他p-1个自变量之间存在严重多重共线性。

第四个指标:条件系数。若一个实际问题的n组观测数据为(xi1xi2,...,xipyi)(i=1,2,...,n),X为资料矩阵,X′X的最大特征根记为λmax,第i个特征根为λi。定义kiλi的条件数。通常0<k<10时,认为变量之间没有多重共线性;10≤k<100时,认为变量之间有较强的多重共线性;k≥100时,认为变量之间存在严重的多重共线性。

除了上述几个判断指标,还可以通过直观法对变量之间的多重共线性进行初步的判断。例如,当增加或剔除一个自变量时,回归系数的估计值会发生较大变化,或者一些重要的自变量在回归方程中没有通过显著性检验,或者回归方程中一些变量系数的符号明显与定性分析的结果相违背等,都可以认定变量之间存在多重共线性。

3. 多重共线性的消除

消除多重共线性最常用的方法是剔除一些不重要的解释变量。在实际问题的分析过程中如果无法判断出变量的重要性程度,则可以首先去掉方差扩大因子最大者所对应的自变量(或者是相关系数最大者),再重新建立回归方程,去除该自变量进行回归拟合以后,如果仍然存在严重的多重共线性,再继续按照方差扩大因子最大原则去除。

需要注意的是:当第二次再去除一个自变量进行回归拟合以后,可以再次添加第一次去除的自变量进行拟合,防止因为去除变量过快而造成去除分析问题的重要影响因素。

建立一个实际问题的回归模型时,如果收集的样本数据太少,也容易产生多重共线性。当选取的变量个数接近样本量n时,自变量间就容易产生共线性。所以在运用回归模型进行实际问题研究时,要尽可能使样本量n大于自变量个数p

结合所研究的实际问题的背景,根据专家的建议、通常考虑该类问题的变量选取、深入探索各自变量之间内在的关系方法,均在剔除或添加变量环节起到重要作用。

总之,在选择回归模型进行试验时,可以将回归系数的显著性检验、方差扩大因子VIF的多重共线性检测、自变量的实际含义等进行综合考虑后,再确定添加或剔除变量。

七、预测与控制

建立回归模型最主要的两个应用是预测和控制。

1. 预测

预测又分为单值预测和区间预测。

单值预测是将自变量的取值(x01x02,…,x0p)代入

得到的值即为预测值。该方法也可用于回归模型建立优劣的检验。具体做法就是:当观察数据量比较大的时候,在利用观察数据确定回归模型的参数时,留下几组数据不参与拟合,在得到回归方程后,将自变量(xi1xi2,...,xip)代入回归方程,看得到的与观察值n的差距。如果这个差值不大,也可以认为模型建立效果较好。

区间预测是指根据给定的自变量取值,给出的取值区间。一般统计软件都直接给出该区间的值。

2. 控制

控制问题相当于预测的反问题,预测与控制有着密切的关系。很多经济和工程问题,都要求y在一定的范围内取值。例如,研究今年的经济增长率时,希望经济增长率保持在7%~12%;在控制通货膨胀问题中,希望全国的零售物价指数增长控制在5%以内等。这些问题归结为:要求T1<y<T2,如何控制(x1x2,...,xp)。即讨论如何控制自变量(x1x2,...,xp),才能以1-α的把握使得目标值y控制在T1<y<T2中。即PT1<y<T2)≥1-α。一般软件都提供预测的结果。详细的理论推导及公式可以参见【9】