第6章 多元回归分析:深入专题
6.1 复习笔记
一、数据的测度单位对OLS统计量的影响
1.数据的测度单位对OLS统计量无实质性影响
当对变量重新测度时,系数、标准误、置信区间、t统计量和F统计量改变的方式,都不影响所有被测度的影响和检验结果。怎样度量数据通常只起到非实质性的作用,比如说,减少所估计系数中小数点后零的个数等。通过对度量单位明智的选择,可以在不做任何本质改变的情况下,改进所估计方程的形象。
对任何一个xi,当它在回归中以log(xi)出现时,改变其度量单位也只能影响到截距。这与对百分比变化和(特别是)弹性的了解相对应:它们不会随着y或xi度量单位的变化而变化。
2.β系数
原始方程:
减去平均方程,就可以得到:
令为因变量的样本标准差,为x1的样本标准差,为x2的样本标准差,等等。然后经过简单的运算就可以得到方程:
每个变量都用其z得分而被标准化,这就得到一些新的斜率参数。截距项则完全消失:
新的系数是:
传统上称这些为标准化系数或β系数。以标准差为单位,由于它使得回归元的度量单位无关紧要,所以这个方程把所有解释变量都放到相同的地位上。在一个标准的OLS方程中,不可能只看不同系数的大小,也不可能断定具有最大系数的解释变量就“最重要”。通过改变xi的度量单位,可以任意改变系数的大小。但当每个xi都被标准化之后,比较由此得到的β系数就更加有说服力。
二、对函数形式的进一步讨论
1.对数式模型
(1)一般估计模型举例及解释
一般估计模型为:
固定xi,有。使用指数函数和对数函数的简单数学性质,可给出所预计的y的精确百分比变化为:
其中乘以100后,就将比例变化转化成了百分数变化。
(2)使用自然对数的优势
①由于斜率系数不随测度单位而变化,所以可以忽略以对数形式出现的变量的度量单位;
②当y>0时,使用log(y)作为因变量的模型,通常比使用y的水平值作为因变量的模型更接近CLM假定;
③严格为正的变量,其条件分布常常具有异方差性或偏态性,取对数后,即使不能消除这两方面的问题,也可以使之有所缓和;
④取对数通常会缩小变量的取值范围,在某些情况下还相当可观。这就使得估计值对因变量或自变量的异常(或极端)观测不是那么敏感。
(3)使用对数的劣势
①使用对数所受到的一个限制是变量不能取零或负值;
②使用对数形式的因变量有一个缺陷,即更难于预测原变量的值。
2.含二次式的模型
考虑最简单的情形:
y=β0+β1x+β2x2+u
其中,β1并没有度量y相对于x的变化,保持x2不变而改变x是毫无意义的。如果将估计方程写成:
那么就有如下近似:
所以。
这说明,x和y之间的斜率取决于x的值,所估计的斜率是。
转折点为x的系数和x2系数的两倍之比:
3.含有交互作用项的模型
考虑包含两个解释变量和一个交互项的模型:y=β0+β1x1+β2x2+β3x1x2+u
将模型重新参数化为:y=α0+δ1x1+δ2x2+β3(x1-μ1)(x2-μ2)+u
其中,μ1和μ2分别为x1和x2的总体均值。很容易看出,现在x2的系数δ2,便是在x1的均值处x2对y的偏效应。
三、拟合优度和回归元选择的进一步探讨
1.对R2的理解
经典线性模型假定中没有要求R2必须大于某个特定值。R2无非就是Y的变异中有多少能用总体中的x1,x2,…,xk解释。零条件均值假定MLR.4只是确定是否得到了自变量其他条件不变之影响的无偏估计量,而R2的大小与此则没有直接关系。
一个较小的R2确实意味着,误差方差相对y的方差太大了,这又意味着很难精确地估计βj。大样本容量可能抵消较大的误差方差:如果有足够的数据,即便没有控制许多无法观测的因素,也可能精确地估计偏效应。
在方程中增加变量时,R2的相对变化则十分有用:检验联合显著性的F统计量,关键取决于无约束模型和约束模型的R2之差。
2.调整R2
R2=1-(SSR/n)/(SST/n)
其中,SSR是残差平方和,而SST是总平方和。
令为y的总体方差,为误差项u的总体方差,则总体R2被定义为:
由于SST/(n-1)是的无偏估计量,所以可以用SST/(n-1)来代替SST/n。又因为
故可以得到调整R2:
R2与调整R2(即)之间的关系表达式为:
3.利用调整R2在两个非嵌套模型中进行选择
在两个非嵌套模型之间进行选择时,利用有一个重要的局限性:不能用它在因变量的不同函数形式之间进行选择。不论是R2还是,所度量的都是因变量总变异中能被解释的比例。而y和log(y)的总变异是不同的,将因变量形式不同的回归中所得到的调整R2进行比较,是不能在哪个模型拟合得更好这个问题上告诉任何信息的。它们拟合的是两个完全不同的因变量。
4.回归分析中控制了过多的因素
如果过分强调拟合优度,就会在回归模型中无所顾忌地控制一些不应该控制的因素。在多元回归中所谓控制因素过多,通常是担心遗漏一个重要变量可能带来潜在偏误。但重要的是记得多元回归的其他条件不变的性质。在有些情形中,某些因素应该随着一个政策变量的改变而有所变化,保持这些因素不变就没有意义。
5.增加回归元以减少误差方差
有些自变量尽管与因变量相关,但也不应该包括在回归模型中。在回归中增加一个新的自变量会加剧多重共线性的问题。另一方面,由于从误差项中取出了一些因素作为解释变量,所以总可以减少误差方差。
对于那些既影响Y而又与所有所关心的自变量都无关的自变量,总是应该把它们包含进来。增加这样一个变量,不会导致总体出现多重共线性,但却可以减小误差方差。在大样本容量的情况下,所有OLS估计量的标准误都将减小。
四、预测和残差分析
1.预测的置信区间
假设有如下估计方程:
令c1,c2,…,ck分别表示k个自变量中每一个自变量的具体值,对参数
进行估计,可得其估计量为:
令为新的自变量值,且u0为观测不到的误差。因此有:
从OLS回归线估计y0的期望值:
预测误差为:
由于是无偏的,所以
由于,u0和不相关,则预测误差的方差为:
令的标准误为:
其中服从一个自由度为n-(k+1)的t分布。于是:
其中,t0.025为tn-k-1分布中第97.5个百分位。对很大的n-k-1,记t0.025≈1.96。代入,经整理则给出y0的一个95%预测区间为:
2.残差分析
检查一下个体观测值,分析因变量的实际值是高于还是低于预测值也很有帮助,也就是考察个别观测的残差。这个过程被称为残差分析。
3.当因变量为log(y)时对y的预测
logy=β0+β1x1+β2x2+…+βkxk+u
给定OLS估计量,得logy的预测值为:
预测y就是将log(y)的预测值转换成指数函数值:
实际上,它将系统地低估y的预测值。因为如果模型服从CLM假定MLR.1MLR.6,那么就可以证明:
如果u~N(0,σ2),那么exp(u)的期望值就是exp(σ2/2)。为了预测y,需要进行一个简单的调整:
其中,无非就是σ2的无偏估计量。因为,所以exp(σ2/2)>1。对很大的,这个调整因子可能会显著地大于1。虽然预测不是无偏的,但它却是一致的。如果只假定u独立于解释变量,那么就有
E(y|x)=α0exp(β0+β1x1+β2x2+…+βkxk)
其中,α0为exp(u)的期望值,并肯定大于1。给定一个估计值,就能将y预测为:
其中,。是α0的一个一致估计量,但它不是无偏的,因为在一个非线性的函数中用取代了ui。
基于一个过原点的简单回归,可以得到α0的另一个不同的估计值。定义:mi=exp(β0+β1xi1+…+βkxik),
于是,就是将yi对进行简单回归(不含截距)所得到的普通最小二乘斜率估计值:
把称为α0的回归估计值。和一样,是一致的,但不是无偏的。
4.当因变量为log(y)时对y的预测步骤
(1)从logy对x1,x2,…,xk的回归中得到拟合值和残差;
(2)利用方程求出或利用求出;
(3)对于给定的x1,x2,…,xk,求出;
(4)利用得到预测值(利用或)。