伍德里奇《计量经济学导论》(第4版)笔记和课后习题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第6章 多元回归分析:深入专题

6.1 复习笔记

一、数据的测度单位对OLS统计量的影响

1.数据的测度单位对OLS统计量无实质性影响

当对变量重新测度时,系数、标准误、置信区间、t统计量和F统计量改变的方式,都不影响所有被测度的影响和检验结果。怎样度量数据通常只起到非实质性的作用,比如说,减少所估计系数中小数点后零的个数等。通过对度量单位明智的选择,可以在不做任何本质改变的情况下,改进所估计方程的形象。

对任何一个xi,当它在回归中以log(xi)出现时,改变其度量单位也只能影响到截距。这与对百分比变化和(特别是)弹性的了解相对应:它们不会随着y或xi度量单位的变化而变化。

2.β系数

原始方程:

减去平均方程,就可以得到:

为因变量的样本标准差,为x1的样本标准差,为x2的样本标准差,等等。然后经过简单的运算就可以得到方程:

每个变量都用其z得分而被标准化,这就得到一些新的斜率参数。截距项则完全消失:

新的系数是:

传统上称这些为标准化系数或β系数。以标准差为单位,由于它使得回归元的度量单位无关紧要,所以这个方程把所有解释变量都放到相同的地位上。在一个标准的OLS方程中,不可能只看不同系数的大小,也不可能断定具有最大系数的解释变量就“最重要”。通过改变xi的度量单位,可以任意改变系数的大小。但当每个xi都被标准化之后,比较由此得到的β系数就更加有说服力。

二、对函数形式的进一步讨论

1.对数式模型

(1)一般估计模型举例及解释

一般估计模型为:

说明: 1

固定xi,有说明: 2。使用指数函数和对数函数的简单数学性质,可给出所预计的y的精确百分比变化为:

其中乘以100后,就将比例变化转化成了百分数变化。

(2)使用自然对数的优势

由于斜率系数不随测度单位而变化,所以可以忽略以对数形式出现的变量的度量单位;

当y>0时,使用log(y)作为因变量的模型,通常比使用y的水平值作为因变量的模型更接近CLM假定;

严格为正的变量,其条件分布常常具有异方差性或偏态性,取对数后,即使不能消除这两方面的问题,也可以使之有所缓和;

取对数通常会缩小变量的取值范围,在某些情况下还相当可观。这就使得估计值对因变量或自变量的异常(或极端)观测不是那么敏感。

(3)使用对数的劣势

使用对数所受到的一个限制是变量不能取零或负值;

使用对数形式的因变量有一个缺陷,即更难于预测原变量的值。

2.含二次式的模型

考虑最简单的情形:

y=β0+β1x+β2x2+u

其中,β1并没有度量y相对于x的变化,保持x2不变而改变x是毫无意义的。如果将估计方程写成:

那么就有如下近似:

所以

这说明,x和y之间的斜率取决于x的值,所估计的斜率是

转折点为x的系数和x2系数的两倍之比:

3.含有交互作用项的模型

考虑包含两个解释变量和一个交互项的模型:y=β0+β1x1+β2x2+β3x1x2+u

将模型重新参数化为:y=α0+δ1x1+δ2x2+β3(x1-μ1)(x2-μ2)+u

其中,μ1和μ2分别为x1和x2的总体均值。很容易看出,现在x2的系数δ2,便是在x1的均值处x2对y的偏效应。

三、拟合优度和回归元选择的进一步探讨

1.对R2的理解

经典线性模型假定中没有要求R2必须大于某个特定值。R2无非就是Y的变异中有多少能用总体中的x1,x2,…,xk解释。零条件均值假定MLR.4只是确定是否得到了自变量其他条件不变之影响的无偏估计量,而R2的大小与此则没有直接关系。

一个较小的R2确实意味着,误差方差相对y的方差太大了,这又意味着很难精确地估计βj。大样本容量可能抵消较大的误差方差:如果有足够的数据,即便没有控制许多无法观测的因素,也可能精确地估计偏效应。

在方程中增加变量时,R2的相对变化则十分有用:检验联合显著性的F统计量,关键取决于无约束模型和约束模型的R2之差。

2.调整R2

R2=1-(SSR/n)/(SST/n)

其中,SSR是残差平方和,而SST是总平方和。

为y的总体方差,为误差项u的总体方差,则总体R2被定义为:

由于SST/(n-1)是的无偏估计量,所以可以用SST/(n-1)来代替SST/n。又因为

故可以得到调整R2

R2与调整R2(即)之间的关系表达式为:

3.利用调整R2在两个非嵌套模型中进行选择

在两个非嵌套模型之间进行选择时,利用有一个重要的局限性:不能用它在因变量的不同函数形式之间进行选择。不论是R2还是,所度量的都是因变量总变异中能被解释的比例。而y和log(y)的总变异是不同的,将因变量形式不同的回归中所得到的调整R2进行比较,是不能在哪个模型拟合得更好这个问题上告诉任何信息的。它们拟合的是两个完全不同的因变量。

4.回归分析中控制了过多的因素

如果过分强调拟合优度,就会在回归模型中无所顾忌地控制一些不应该控制的因素。在多元回归中所谓控制因素过多,通常是担心遗漏一个重要变量可能带来潜在偏误。但重要的是记得多元回归的其他条件不变的性质。在有些情形中,某些因素应该随着一个政策变量的改变而有所变化,保持这些因素不变就没有意义。

5.增加回归元以减少误差方差

有些自变量尽管与因变量相关,但也不应该包括在回归模型中。在回归中增加一个新的自变量会加剧多重共线性的问题。另一方面,由于从误差项中取出了一些因素作为解释变量,所以总可以减少误差方差。

对于那些既影响Y而又与所有所关心的自变量都无关的自变量,总是应该把它们包含进来。增加这样一个变量,不会导致总体出现多重共线性,但却可以减小误差方差。在大样本容量的情况下,所有OLS估计量的标准误都将减小。

四、预测和残差分析

1.预测的置信区间

假设有如下估计方程:

令c1,c2,…,ck分别表示k个自变量中每一个自变量的具体值,对参数

进行估计,可得其估计量为:

为新的自变量值,且u0为观测不到的误差。因此有:

从OLS回归线估计y0的期望值:

预测误差为:

由于是无偏的,所以

由于,u0不相关,则预测误差的方差为:

的标准误为:

其中服从一个自由度为n-(k+1)的t分布。于是:

其中,t0.025为tnk1分布中第97.5个百分位。对很大的n-k-1,记t0.025≈1.96。代入,经整理则给出y0的一个95%预测区间为:

2.残差分析

检查一下个体观测值,分析因变量的实际值是高于还是低于预测值也很有帮助,也就是考察个别观测的残差。这个过程被称为残差分析。

3.当因变量为log(y)时对y的预测

logy=β0+β1x1+β2x2+…+βkxk+u

给定OLS估计量,得logy的预测值为:

说明: 3

预测y就是将log(y)的预测值转换成指数函数值:

说明: 4

实际上,它将系统地低估y的预测值。因为如果模型服从CLM假定MLR.1MLR.6,那么就可以证明:

如果u~N(0,σ2),那么exp(u)的期望值就是exp(σ2/2)。为了预测y,需要进行一个简单的调整:

说明: 5

其中,无非就是σ2的无偏估计量。因为,所以exp(σ2/2)>1。对很大的,这个调整因子可能会显著地大于1。虽然预测不是无偏的,但它却是一致的。如果只假定u独立于解释变量,那么就有

E(y|x)=α0exp(β0+β1x1+β2x2+…+βkxk

其中,α0为exp(u)的期望值,并肯定大于1。给定一个估计值,就能将y预测为:

说明: 6

其中,是α0的一个一致估计量,但它不是无偏的,因为在一个非线性的函数中用取代了ui

基于一个过原点的简单回归,可以得到α0的另一个不同的估计值。定义:mi=exp(β0+β1xi1+…+βkxik),

说明: 7

于是,就是将yi进行简单回归(不含截距)所得到的普通最小二乘斜率估计值:

称为α0的回归估计值。和一样,是一致的,但不是无偏的。

4.当因变量为log(y)时对y的预测步骤

(1)从logy对x1,x2,…,xk的回归中得到拟合值说明: 8和残差

(2)利用方程求出或利用求出

(3)对于给定的x1,x2,…,xk,求出说明: 9

(4)利用说明: 10得到预测值(利用)。