第3章 多元回归分析:估计
3.1 复习笔记
一、使用多元回归的动因
1.含有两个自变量的模型
(1)多元回归分析
除主要的变量外,把其他可观测因素也包括在回归模型中。可以把含有两个自变量的模型写成:
y=β0+β1x1+β2x2+u
其中,β0是截距,β1度量了在其他条件不变情况下Y相对x1的变化,而β2则度量了在其他条件不变情况下Y相对x2的变化。
多元回归分析对推广变量之间的函数关系也有帮助。一个重要的差别是如何对参数进行解释。
(2)多元回归分析的假定
在含有两个自变量的模型中,u与x1和x2如何相关的关键假定是:
E(u|x1,x2)=0
对上式的解释与对简单回归分析的假定SLR.4的解释相似。它意味着,对总体中x1,x2和的任何值,无法观测因素的平均值都等于零。
2.含有k个自变量的模型
(1)多元回归模型
一般多元性回归模型在总体中可以写成:
y=β0+β1x1+β2x2+…+βkxk+u
其中,β0为截距(intercept),β1是与x1相联系的参数,β2是与x2相联系的参数,等等。由于有k个自变量和一个截距项,所以方程包含了k+1个(未知的)总体参数。把这种不同于截距的参数称为斜率参数。
多元回归的术语类似于简单回归的术语。
(2)多元回归模型的关键假定
用条件期望的形式可以表示为:
E(u|x1,x2,…,xk)=0
该假定表示不可观测的误差项中的所有因素都与解释变量无关。任何一个导致u与某个自变量相关的问题,都会导致式假定不成立。
二、普通最小二乘法的操作和解释
1.如何得到OLS估计值
(1)包含两个自变量模型的估计
在形式上,被估计的OLS方程为:
普通最小二乘法选择能最小化残差平方和的估计值。即要使下式尽可能小:
下标i表示观测序号。第二个下标只是区别不同自变量的方法。
(2)含有k个自变量模型的估计
OLS方程为:
该方程被称为OLS回归线或样本回归函数。称为OLS截距估计值,而把称为OLS斜率估计值。
所选择的k+1个OLS估计值最小化残差平方和:
使用多元微积分求解可得k+1个线性方程:
这个方程组通常被称为OLS一阶条件。必须假定上式中的方程只能得到的唯一解。
2.对OLS回归方程的解释
(1)包含两个自变量模型的解释
①方程中的截距项是Y在x1=0和x2=0情况下的预测值。在多数情况下,令x1和x2都等于零没有什么意义。
②估计值和具有偏效应或其他情况不变的解释。从上式中可得:
因此能在给定x1和x2的变化的情况下,预测Y的变化。截距项与Y的变化没有关系。当x2固定,因而∆x2=0时,于是,类似地,在保持x1不变时,。
(2)包含多个自变量模型的解释
OLS回归线:
用变化量表示为:
x1的系数度量的是,在所有其他条件不变的情况下,因提高一个单位的x1而导致的变化。即在保持x2,x3,…,xk不变的情况下,。因此,在估计x1对Y的影响时,已经控制了变量x2,x3,…,xk的影响。其他系数与此相似。
3.多元回归中“保持其他因素不变”的含义
因为多元回归分析中斜率参数的偏效应解释可能会导致一些混淆,所以要尽量避免这个问题。多元回归有效地模拟了对自变量的值不加限制的情况。
多元回归分析能在非实验环境中进行自然科学家在受控实验中所能做的事情:保持其他因素不变。
4.同时改变不止一个自变量
通过方程可以改变一个以上的自变量,并能够得到由此对因变量的影响。
5.OLS的拟合值和残差
(1)拟合值和残差
在得到OLS回归线式后,对每次观测都得到一个拟合值或预测值。对观测,其拟合值为:
在求拟合值,不应该忘记截距项;否则,结果就极具误导性。
规范地讲,对任一观测i,实际值yi都不等于预测值;OLS最小化了预测误差评分的平均值,但对任何一个观测的预测误差都没做说明。第i个观测的残差只是像在简单回归中那样,被定义为:
每次观测都有一个残差。若,则小于yi,yi被预测得过低。若,则大于yi,yi被预测得过高。
(2)OLS拟合值和残差的重要性质
①残差的样本平均值为零。
②OLS拟合值和OLS残差之间的样本协方差值为零。
③点总位于OLS回归线上:
6.对多元回归“排除其他变量影响”的解释
(1)在简单回归分析中,由于回归中根本就不存在其他变量,所以就不用排除其变量的影响。
(2)考虑k=2个自变量的情形
一种表示的方式为:
其中,是利用现有样本将x1对x2进行简单回归而得到的OLS残差,再将Y对进行简单回归就能得到。(残差的样本均值为零,所以就是通常简单回归的斜率参数。)
该表达式还给出的另一种偏效应解释,即度量了在排除xi2的影响之后y和x1之间的样本关系。
(3)在一个含有k个解释变量的一般模型中,不变,但残差来自x1对x2,x3,…,xk的回归。度量的是,在排除x2,x3,…,xk等变量的影响后,x1对y的影响。
7.简单回归和多元回归估计值的比较
(1)简单回归和多元回归估计值的关系
Y对x1的简单回归所得到的回归估计值与将y对x1和x2作OLS回归时所得到x1的偏回归估计值的关系为:
其中,是xi2对xi1进行简单回归的斜率系数。导致二者区别的一项,是x2对的偏效应与x2对x1进行简单回归的斜率之积。
(2)两者相等的特殊情况
①样本中x2对y的偏效应为零,即;
②样本中x1和x2不相关,即。
(3)在含有k个自变量的情形中两者相等的特殊情况
①从x2到xk所有的OLS系数都是零;
②x1与x2,x3,…,xk都不相关。
实际上,这两个条件都不太可能成立。但如果所有从x2到xk的系数都很小,或者x1与其他自变量之间的样本相关关系都不显著,那么x1影响Y的简单回归估计值和多元回归估计值可能会很相似。
8.拟合优度
(1)总平方和(SST)、解释平方和(SSE)和剩余平方和或残差平方和(SSR)
可以证明SST=SSE+SSR,将方程两边同时除以SST得到:SSR/SST+SSE/SST=1。
(2)拟合优度
①R2被定义为:
R2≡SSE/SST=1-SSR/SST
而且被解释为Yi的样本变异中被OLS回归线所解释的部分。根据定义,R2是一个介于0和1之间的数。
②R2等于yi的实际值与其拟合值之相关系数的平方。即:
③有关R2的一个重要事实
在回归中多增加一个自变量后,它绝对不会减小,而且通常会增大。因为在模型中多增加一个回归元时,按照定义,残差平方和绝对不会增加。
回归中增加任何一个变量都不会使R2减小的事实,使得用R2作为判断是否应该在模型中增加一个或几个变量的工具很不适当。判断一个解释变量是否应放入模型的因素是,这个解释变量在总体中对y的偏效应是否非零。
9.过原点的回归
(1)过原点回归的定义
具体方程如下:
其中,估计值上面的符号“~”用以区别带截距的OLS回归。当x1=0,x2=0,…,xk=0时,则预测值也为零。在这种情况下,被称为从y对x1,x2,…,xk进行过原点的回归而得到的OLS估计值。
(2)过原点回归的特点
①OLS残差的样本平均不再是零。
②如果R2被定义为R2=1-SSR/SST,而SSR现在是
R2实际上可能为负。这意味着样本平均比解释变量更多地“解释”了yi的变异。要么应该在回归中包含一个截距项,要么断定解释变量对Y的解释很差。
③通过原点的回归有一个重要缺陷:如果总体模型中的截距项β0不是零,那么斜率参数的OLS估计量将有偏误。在某些情况下,这种偏误可能会很严重。当β0确实是零时,估计带截距项方程的代价是,OLS斜率估计量的方差会更大。
三、OLS估计量的期望值
以下假定都是对简单回归模型假定的直接推广,而且在这些假定之下,OLS估计量是总体参数的无偏估计。
1.基本假定与OLS的无偏性
(1)假定MLR.1(线性于参数)
总体模型可写成:
y=β0+β1x1+β2x2+β3x3+…+βkxk+u
其中β0,β1,…,βk是未知参数(常数),而u则是无法观测的随机误差或随机干扰。
模型的一个重要特点是,它是参数β0,β1,…,βk的线性函数。
(2)假定MLR.2(随机抽样)
有一个包含n次观测的随机样本{(xi1,xi2,…,xik,yi):i=1,2,…,n},它来自假定MLR.1中的总体模型。
写出一次特定观测i的方程:
yi=β0+β1xi1+β2xi2+…+βkxik+ui
记住i表示观测次数,x的第二个角标表示变量序号。
借助模型y=β0+β1x1+β2x2+β3x3+…+βkxk+u ,从y对x1,x2,…,xk的回归中得到的OLS估计量,现在被看作是β0,β1,…,βk的估计量。
(3)假定MLR.3(不存在完全共线性)
①假定的主要内容
在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系。
如果方程中的一个自变量刚好是其他自变量的一个线性组合,就说这个模型遇到完全共线性的问题,也就不能由OLS来估计。假定MLR.3允许自变量之间存在相关关系,只是不能完全相关。
②自变量完全相关的方式
a.不要在同一个回归方程中包括以不同单位度量的同一个解释变量。一个自变量也可能以更微妙的方式成为另一个自变量的倍数。
b.自变量可能完全线性相关的另一种方式是,一个自变量恰好可以表示成其他两个或多个自变量的线性函数。
(4)假定MLR.4(条件均值为零)
给定自变量的任何值,误差u的期望值为零,即:
E(u|x1,x2,…,xk)=0
①假定MLR.4可能不成立的情况:
a.模型方程中被解释变量和解释变量之间的函数关系被错误地设定:当一个变量在总体中应该以对数形式出现时,却使用了其水平值等等。
b.漏掉一个与x1,x2,…,xk中任何一个自变量相关的重要因素,也能导致MLR.4不成立。
c.u还可能以其他方式与一个解释变量相关。
当假定MLR.4成立时,则模型具有外生解释变量。如果出于某种原因x仍与u相关,那么xj就被称为内生解释变量。
②假定MLR.4与假定MLR.3相当不同,不能将它们混淆。
假定MLR.3排除了自变量和因变量之间的某些关系,而与u无关。在进行OLS估计时,就会得出假定MLR.3成立与否。
假定MLR.4则限制了u中无法观测因素与解释变量之间的关系,是一个关键假定。但无法确切地知道,无法观测因素的平均值是否与解释变量无关。
(5)定理3.1:OLS的无偏性
在假定MLR.1~MLR.4下,下式对总体参数βj的任意值都成立
即OLS估计量是总体参数的无偏估计量。
OLS在假定MLR.1~MLR.4下是无偏的,是指,将用来得到OLS估计值的程序用于各种可能的随机样本时,这个程序是无偏的。
2.在回归模型中包含了无关变量
在多元回归分析中包含一个无关变量或对模型进行过度设定,是指尽管一个(或多个)自变量在总体中对y没有影响,却被放到了模型中(即它的总体系数为零)。
在一个多元回归模型中包含一个或多个无关变量,或对模型进行了过度设定,并不会影响到OLS估计量的无偏性。包含无关变量对OLS估计量的方差具有不利影响。
3.遗漏变量的偏误:简单情形
假设遗漏了一个实际上应包括在真实(或总体)模型中的变量,这通常被称为排除一个有关变量或对模型设定不足的问题。
(1)遗漏变量偏误
简单回归因遗漏一个变量而误设时所具有的性质。由于模型满足假定MLR.1~MLR.4,所以和将分别是β1和β2的无偏估计量。因此:
则中的偏误为:
此时的偏误源自遗漏的解释变量x2,所以方程右边的项时常被称为遗漏变量偏误。
(2)无偏的两种情况
①第一种情况:若β2=0,则就是无偏的。
②第二种情况:若,使也是β1≠0,也是β1的无偏估计。当且仅当样本中的x1和x2不相关时,才会有。由此可得:若样本中的x1和x2不相关,则就是无偏估计。
若,那么的无偏性无须以xi2为条件;于是在估计β1时,只要调整截距,将x2放在误差项中并不违背误差项的条件均值为零的假定。
当x1和x2相关时,与x1和x2之间的相关系数具有相同的符号:若x1和x2正相关,则,若x1和x2负相关,则。
(3)偏误的符号与大小
①偏误的符号同时取决于β2和的符号,存在偏误时的四种可能情形如表3-1所示。
表3-1 遗漏变量时的偏误汇总表
②偏误的大小由β2和的大小决定。
(4)与偏误有关的术语
在模型漏掉一个变量的背景下,若,就说有向上的偏误。当时,则有向下的偏误。
向零的偏误是指比β1更接近零的情况。因此,若β1为正,则向下的偏误就是向零的偏误;另一方面,若β1为负,则向上的偏误就是向零的偏误。
4.遗漏变量的偏误:更一般的情形
一个解释变量与误差之间存在相关性,一般会导致所有OLS估计量都产生偏误。
假设总体模型y=β0+β1x1+β2x2+β3x3+u,满足假定MLR.1~MLR.4,但遗漏了变量x3并估计了模型
假设x2和x3无关,但x1和x3却相关。此时和通常都是有偏的。唯一的例外是,在x1和x2不相关的时候。很难得到和偏误的方向,因为x1,x2和x3可能会两两相关。
一种近似方法在实践中常常很有用。如果假定x1和x2无关,则:
四、OLS估计量的方差
1.同方差性与OLS斜率估计量的抽样方差
(1)假定MLR.5(同方差性)
给定任意解释变量值,误差项u都具有相同的方差。即:
假定MLR.5意味着,以解释变量为条件,不管解释变量出现何种组合,误差项u的方差都是一样的。如果这个假定不成立,那么模型就像在两变量情形中一样表现出异方差性。
假定MLR.1~MLR.5一起被称为(横截面回归的)高斯-马尔可夫假定。
(2)定理3.2:OLS斜率估计量的抽样方差
在假定MLR.1~MLR.5之下,以自变量的样本值为条件,对所有的j=1,2,…,k,都有:
其中,是xj的总样本变异,而则是将xj对所有其他自变量(并包含一个截距项)进行回归所得到的R2。
在得到这个公式的过程中,用到了所有高斯-马尔可夫假定。
2.OLS方差的成分:多重共线性
的方差取决于三个因素:σ2、SSTj和。下标j只是表示自变量中的任意一个。
(1)误差方差σ2
σ2越大意味着OLS估计量的方差就越大。方程中的“噪音”越多(σ2越大),使得估计任何一个自变量对y的偏效应都越困难,这将通过OLS斜率估计量的较大方差反映出来。由于σ2是总体的一个特征,所以它与样本容量无关。
对于一个给定的因变量y,确实只有一个办法减少误差方差,即在方程中增加更多的解释变量(将某些因素从误差项中剔除出来)。
(2)xj的总样本变异,SSTj
xj的总变异越大,就越小。因此,若所有其他条件不变,就估计βj而言,xj的样本方差越大越好。
有一种办法来提高每个自变量的样本变异:扩大样本容量。实际上,当从总体中随机抽样时,随着样本容量越来越大,SSTj将无限递增。这是方差中系统地取决于样本容量的部分。
若SSTj很小,会变得很大。但小的SSTj并不违背假定MLR.3。从技术上讲,随着SSTj趋近于零,可能趋于无穷大。但xj无样本变异的这种极端情形(SSTj=0)却是假定MLR.3所不允许的。
(3)自变量之间的线性关系,
不同于Y对x1,x2,…,xk回归所得到的R2:得到的回归只涉及原模型中的自变量,其中xj是作为因变量而出现的。
①k=2的情形:y=β0+β1x1+β2x2+u 。
,其中是x1对x2(含截距)进行简单回归所得到的R2由于R2度量了拟合优度,所以当值接近于1时,则表明在这个样本中,x2解释了x1的大部分变动。这就意味着x1和x2高度相关。随着向1逐渐接近,则变得越来越大。因此x1和x2之间线性关系的程度越高,OLS斜率估计值的方差就越大。
②在一般情况下,是xj总变异中可由方程中其他给定的σ2和SSTj最小的自变量加以解释的部分。对于在时得到,当且仅当xi与其他每个自变量的样本相关系数都等于零时,才会发生这种情况。
③另一个极端情形被假定MLR.3所排除,因为意味着,xj恰好是回归中某些自变量的线性组合。
④还有一种更重要的情形是“接近”于1的情况。这会导致很大:若则,两个或多个自变量之间高度(但不完全)相关被称为多重共线性。
(4)多重共线性的界定和解决方法
①多重共线性的界定
在“接近”于1的情况下估计βj可能会导致多重共线性时,把“接近”一词放在引号中,因为不能给出一个绝对的数字来断定什么情况下多重共线性会成为一个问题。就统计推断而言,最终问题是与其标准差相比有多大。
很大的可能导致很大的,很小的SSTj也能导致很大的,因此,小样本容量也能导致很大的抽样方差。对样本中自变量间出现高度相关的担心,实际上无异于对小样本容量的担心:二者都会提高。
②结论
虽然不能清楚地界定多重共线性问题,但在所有其他条件都不变的情况下,就估计βj来说,xj与其他自变量之间越不相关越好。
另外一个重要问题是,虽然某些自变量之间高度相关,但对模型中其他参数的估计效果而言可能并不重要。
③“解决”多重共线性问题的方法:
a.搜集更多的数据外;
b.对于一个给定的数据集,可以试着从模型中去掉一些其他自变量,以努力消除多重共线性。但去掉总体模型中的一个变量常常会导致偏误。
3.误设模型中的方差
在一个回归模型中是否包含一个特定变量的决策,可以通过分析偏误和方差之间的替换关系而做出。
将满足高斯-马尔可夫假定的真实总体模型写成:y=β0+β1x1+β2x2+u,
假定x1和x2不相关,可以得到如下结论:
(1)当β2≠0时,是有偏的,是无偏的,而且。
(2)当β2=0时,和都是无偏的,而且。
①若β2=0,更好。如果x2对y没有偏效应,那么将它放在模型中就只会加剧多重共线性问题,从而导致β1的估计量效率较低。在模型中包括一个无关变量的代价是,β1的估计量方差较高。
②β2≠0的情况。不把x2放到模型中,将导致β1的估计量有偏误。
当β2≠0时,模型中应该包括x2的原因:
a.中的偏误不会随着样本容量的扩大而缩减;实际上,偏误不一定服从任何形式,偏误对任何样本容量都大致相等。
b.随着x逐渐变大,和都逐渐缩小至零,这意味着,随着样本容量逐渐变大,因增加x2所导致的多重共线性就会变得没有那么重要。在大样本情况下,将更偏好。
c.方差公式取决于样本中xi1和xi2的值,这就为提供了最好的条件。当β2≠0时,仅取决于x1的方差比式中的方差更大。
4.估计σ2:OLS估计量的标准误
(1)残差和自由度
将每个βi用其OLS估计量取代后,就得到OLS残差:
在简单回归情形中,这将导致一个有偏估计量。在一般多元回归情形中,σ2的无偏估计量是:
n-k-1是含有n个观测和k个自变量的一般OLS问题的自由度。即:df=n-(k+1)=观测次数-估计参数的个数。
(2)定理3.3:σ2的无偏估计
在高斯-马尔可夫假定MLR.1~MLR.5下,E(σ2)=σ2。
的正平方根被称为回归标准误或SER。SER是误差项之标准差的估计量。(对于给定样本)在方程中增加另一个自变量时,则可能减小或增加。这是因为当增加另一个解释变量时,在SSR肯定下降的同时,自由度也减少一个。因为SSR在分子中,而df在分母中,所以事先并不知道哪个作用会占主导地位。
(3)的标准差
为了构造置信区间并进行检验,估计的标准差也就是方差的平方根:
由于σ未知,所以用其估计量来取代,则:
如果误差表现出异方差性,标准误公式就不是的一个可靠估计量,从而使标准误无效。
五、OLS的有效性:高斯-马尔可夫定理
1.最优线性无偏估计量
(1)估计量:它是一个可应用于任何一个数据样本,并产生一个估计值的规则。
(2)无偏估计量:如果βj的一个估计量,对任意β0,β1,…,βk都有,那么它就是βj的一个无偏估计量。
(3)“线性”:βj的一个估计量是线性的充分必要条件是,它能表示成因变量数据的一个线性函数:
其中每个wij都可以是所有自变量样本值的一个函数。
(4)“最优”:最优被定义为最小方差。
2.定理3.4:高斯-马尔可夫定理
(1)主要内容
在假定MLR.1~MLR.5下,分别是β0,β1,…,βk的最优线性无偏估计量。
假定MLR.1~MLR.5被称为(横截面数据分析的)高斯-马尔可夫假定。
(2)高斯-马尔可夫定理的重要性
当这个标准假定集成立时,不需要再去寻找其他无偏估计量:没有一个会比OLS更好。
如果高斯-马尔可夫假定中的任何一个不成立,那么这个定理也就不再成立。零条件均值的假定(假定MLR.4)不成立会导致OLS产生偏误,异方差性(假定MLR.5不成立)虽不致使OLS有偏,但它在线性无偏估计量中不再具有最小方差。