伍德里奇《计量经济学导论》(第4版)笔记和课后习题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第4章 多元回归分析:推断

4.1 复习笔记

一、OLS估计量的抽样分布

1.假定MLR.6(正态性)

总体误差u独立于解释变量x1,x2,…,xk,而且服从均值为零和方差为σ2的正态分布:u~Normal(0,σ2)。

2.经典线性模型

就横截面回归中的应用而言,从假定MLR.1~MLR.6这六个假定被称为经典线性模型假定。将这六个假定下的模型称为经典线性模型(CLM)。

在CLM假定下,OLS估计量比在高斯-马尔可夫假定下具有更强的效率性质。可以证明,OLS估计量是最小方差无偏估计,即在所有的无偏估计中,OLS具有最小的方差。

总结CLM总体假定的一种简洁方法是:

y|x~Normal(β0+β1x1+β2x2+…+βkxk,σ2

误差项的正态性导致OLS估计量的正态抽样分布:

3.中性极限定理的缺陷

(1)u中的众多因素可能各有极为不同的总体分布,但中心极限定理(CLT)在这些情形下仍成立,这种正态近似可能不那么好。

(2)更严重的问题是,它假定所有不可观测因素都以独立而又可加的方式影响着Y。如果u是不可观测因素的一个复杂函数,那么CLT论证并不真正适用。

4.误差项的正态性导致OLS估计量的正态抽样分布

定理4.1:正态抽样分布

在CLM假定MLR.1~MLR.6下,以自变量的样本值为条件,有:

因此,

二、检验对单个总体参数的假设:t检验

1.总体回归函数

总体模型可写作:

y=β0+β1x1+…+βkxk+u

假定它满足CLM假定,OLS得到βj的无偏估计量。

2.定理4.2:标准化估计量的t分布

在CLM假定MLK.1~MLK.6下,

其中,k+1是总体模型y=β0+β1x1+…+βkxk+u中未知参数的个数(k个斜率参数和截距β0)。

式中的分布源于中的常数σ已经被随机变量所取代,而且可得

3.检验虚拟假设

H0:βj=0

用来检验式的统计量被称为的t统计量或t比率,并被定义为

(1)单侧对立假设检验

单侧对立假设:H1:βj>0。这种检验意味着排除了系数的总体值小于0的可能性。

拒绝法则

显著性水平:即当H0实施上正确时拒绝它的概率。在α%的显著性水平上“足够大”的定义是,在含有n-k-1个自由度的t分布中,处在百分位中第100-α位的数值。

,H0在α%的显著性水平上被拒绝并支持H1。该拒绝法则被称为单侧检验法。

临界值

临界值等于tα(df)。随着显著性水平下降,临界值会提高,以致要拒绝H0就需要越来越大的

如果临界值来自t分布的左侧,则将拒绝法则看成:

其中,c是对立假设H1:βj>0的临界值。

(2)双侧对立假设

虚拟假设与对立假设分别为:

H0:βj=0

H1:βj≠0

在这个对立假设下,xj对y具有未明确说明是正还是负的影响。

拒绝H0:βj=0的法则是,此时临界值c为tα/2(df)。在没有明确地表述对立假设时,通常都认为是双侧的。如果在5%的显著性水平上拒绝H0,通常说“在显著性水平为5%时统计上显著异于零”。如果H0未被拒绝,就说“xj在显著性水平为5%时是统计上不显著的”。

(3)检验βj 的其他假设

若虚拟假设表述为H0:βj=αj。相应的t统计量为:

t统计量最好写成:

若t>c,拒绝虚拟假设而支持对立假设,表示在适当的显著性水平上,βj≠αj

(4)计算t检验的p值

p值就是用检验统计量的值作为检验临界值时,检验的显著性水平。p值是一个概率,总是介于0和1之间。

p值的解释:在虚拟假设正确时,所观察到的t统计量至少和所得到的t统计量一样大的概率。这意味着,小p值是拒绝虚拟假设的证据,而大p值不能提供拒绝H0的证据。

一旦p值被计算出来,在任何理想的显著性水平下都能进行经典检验。如果用α表示检验的显著性水平(以小数形式表示),那么,若p<α,则拒绝虚拟假设;否则,在100α%的显著性水平下,就不能拒绝H0

(5)对经典假设检验用语的提醒

当H0未被拒绝时,说明“在x%的水平上,不能拒绝H0”,而不能断定“在x%的水平上接受了H0”。

(6)经济或实际显著性与统计显著性

一个变量xj的统计显著性完全由的大小决定,而一个变量的经济显著性或实际显著性则与的大小(及符号)相关。

检验H0:βj=0时的t统计量被定义为估计值与其标准误之比:。之所以能标志统计显著性,要么是因为“很大”,要么是因为“很小”。在实践中,区分导致t统计量统计显著的原因很重要。过多地强调统计显著性,即使一个变量的估计效应不太大,也认为它在解释y时很“重要”,会导致错误的结论。

在处理大样本时,除了看t统计量外,对系数的大小加以解释也特别重要。对于大样本容量,参数可以估计得相当准确:标准误与系数估计值相比通常都相当小,从而常常导致统计显著性。因此样本容量越大时,应该使用越小的显著性水平,以抵偿标准误越来越小所带来的后果。

样本容量较大时,很大的标准误可能是多重共线性造成的结果。而在小样本中,解释变量高度相关时,很难精确估计其偏效应。

(7)检验变量在多元回归模型中的经济和统计显著性的准则

检查统计显著性。如果该变量是统计显著的,那就讨论系数的大小,以对其实际或经济上的重要性有所认识。

如果一个变量在通常的显著性水平(10%、5%或1%)上不是统计显著的,但如果这个变量对y具有很大的预期的影响,而这个影响在实践中很大,那就应该对t统计量计算一个p值。对于小样本容量,有时可以让p值大到0.20。

t统计量很小的变量都具有“错误”的符号。

三、置信区间

在经典线性模型的假定之下,能很容易地为总体参数βj构造一个置信区间(CI)。因为置信区间为总体参数的可能取值提供了一个范围,而不只是一个点估计值,所以又被称为区间估计(值)。

置信区间的下界和上界分别是:

四、检验关于参数的一个线性组合假设

原虚拟假设与对立假设为:

H0:β1=β2;H1:β1<β2

将虚拟假设和对立假设分别重新写成:

H0:β1-β2=0;H1:β1-β2<0

t统计量表示为:

接下来进行t检验步骤即可。

五、对多个线性约束的检验:F检验

1.对排除性约束的检验

检验一组自变量是否对因变量都没有影响。更准确地说,虚拟假设是,在控制了一些变量之后,余下的那些变量对y没有任何影响。对多重约束进行的检验被称为多重假设检验或联合假设检验。

一个特定的t统计量只能检验一个对其他参数没有限制的假设,因此必须导出一个对多重约束的检验。

2.推导F检验统计量

将具有k个自变量的不受约束模型写成:

y=β0+β1x1+…+βkxk+u

不受约束模型中的参数有k+1个。

假设有q个排除性约束要检验:即虚拟假设表示,有q个变量的系数为零。假定这q个变量是自变量中的最后q个:Xkq1,…,Xk

虚拟假设:H0:βkg1=0,…,βk=0,它对模型施加了q个排除性约束。

对立假设意味着列出的参数至少有一个异于零。

受约束模型为:

y=β0+β1X1+…+βkqXkq+u

当从不受约束模型变为受约束模型时,SSR的相对增加对检验假设而言应该是有意义的。定义F统计量为

其中,SSRr是受约束模型的残差平方和,SSRur是不受约束模型的残差平方和。因为SSRr不可能比SSRur小,所以F统计量总是非负的(而且几乎总是严格为正)。

q=分子自由度=dfk-dfuk,表明q是受约束模型与不受约束模型的自由度之差。(df=观测次数-被估计参数的个数。)由于受约束模型参数较少,而每个模型都使用同样的n次观测,所以dfk总是大于dfuk

n-k-1=分母自由度=dfuk,F的分母恰好就是不受约束模型中σ2=Var(u)的一个无偏估计量。

在H0下(并假设CLM假定成立),F统计量服从自由度为(q,n-k-1)的F随机变量的分布,写成F~Fqnk1。如果F>c,就在所选定的显著性水平上拒绝H0而支持H1。如果拒绝H0,就说,xkq1,…,xk 在适当的显著性水平上是联合统计显著的(或简单地说是联合显著的)。

3.F统计量和t统计量之间的关系

(1)检验单个变量之排除性的F统计量,等于对应t统计量的平方。

(2)F统计量和t统计量适用与单侧检验和双侧检验的情况

因为具有F1nk1分布,所以在双侧对立假设下,这两种方法得到完全一样的结果。

由于t统计量可用来检验单侧对立假设,所以它对于检验单个参数假设就更灵活。还因为t统计量比F统计量更容易获得,所以实在没有理由使用F统计量对单个参数假设进行检验。

(3)F统计量和t统计量适用与单个检验和联合检验的情况

两(或多)个各自具有不显著t统计量的变量,合起来可能十分显著。还有一种可能,在一组解释变量中,一个变量具有显著的t统计量,但在常用的显著性水平上,这组变量却不是联合显著的。虽然规定F统计量用于侦查一组系数是否异于零,但它绝不是判断单个系数是否异于零的最佳检验。t检验最适合检验单个假设。

当一个变量十分显著时,将它与其他某组变量联合检验,结果便是联合显著的。在这种情形中,同时拒绝这两个虚拟假设并不存在逻辑上的不一致。

4.F统计量的R2

(1)使用受约束模型和不受约束模型的R2来计算F统计量更方便的原因

R2必定介于0和1之间,而SSR则在很大程度上依赖于度量单位,使得基于SSR的计算繁冗。

R2在几乎所有的回归中都会报告,而SSR则不然,使用R2来检验变量的排除就较容易。

(2)R2型F统计量

5.计算F检验的p值

p值对报告F检验的结果特别有用。由于F分布取决于分子和分母的自由度,所以只是看一下F统计量的值或一两个临界值,对拒绝虚拟假设之证据的强弱很难有直观感觉。在F检验的背景下,p值被定义为:

p值=P(f>F)

p值的解释:给定虚拟假设是正确的,观察到的F值至少和所得到的F值一样大的概率。

6.回归整体显著性的F统计量

在含有k个自变量的模型中,可以把虚拟假设写成H0:x1,x2,…,xk都无助于解释y。

用参数表示,这个虚拟假设就是所有的斜率参数都是零:H0:β1=β2=…=βk=0,在式中有k个约束,得到受约束模型y=β0+u,该估计式的R2为零。因为没有解释变量,所以y中的变异一点都没有得到解释。F统计量可写成

其中,R2就是y对x1,x2,…,xk 回归的通常R2

7.检验一般的线性约束

检验排除性约束仍是F统计量最重要的应用。但有时候,一种理念所蕴涵的约束,比仅仅排除某些自变量更为复杂,仍可以直接使用F统计量进行检验。

因变量不同的模型,不能使用F统计量的R2型。

六、报告回归结果

1.所估计的OLS系数估计值总应该报告

对于分析中的关键变量,对所估计的系数做出解释。

2.标准误

标准误总是应该与所估计的系数一起包括进来,原因在于:

(1)标准误有助于判断被检验的虚拟假设,虚拟假设并非总是总体参数为0;

(2)有助于计算置信区间。

3.回归的R2也总应该包括进来

(1)R2提供拟合优度的一种度量;

(2)简化排除性约束F统计量的计算。

4.观测次数也应该出现在估计模型中