伍德里奇《计量经济学导论》(第4版)笔记和课后习题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1篇 横截面数据的回归分析

第2章 简单回归模型

2.1 复习笔记

一、简单回归模型的定义

1.双变量线性回归模型

一个简单的方程是:y=β0+β1x+u。

假定方程在所关注的总体中成立,它便定义了一个简单线性回归模型。因为它把两个变量x和y联系起来,所以又把它称为两变量或者双变量线性回归模型。

2.回归术语

表2-1  简单回归的术语

3.零条件均值假定

(1)零条件均值

u的平均值与x值无关。可以把它写作:E(u|x)=E(u)。当方程成立时,就说u的均值独立于x。

(2)零条件均值假定的意义

零条件均值假定给出β1的另一种非常有用的解释。以x为条件取期望值,并利用E(u|x)=0,便得到:

E(y|x)=β0+β1x

方程表明,总体回归函数(PRF)E(y|x)是x的一个线性函数,线性意味着x变化一个单位,将使y的期望值改变β1。对任何给定的x值,y的分布都以E(y|x)为中心。β1就是斜率参数。

给定零条件均值假定E(u|x)=0,把方程中的y看成两个部分是比较有用的。一部分是表示E(y|x)的β0+β1x,被称为y的系统部分,即由x解释的那一部分,另一个部分是被称为非系统部分的u,即不能由x解释的那一部分。

二、普通最小二乘法的推导

1.最小二乘估计值

从总体中找一个样本。令{(xi,yi):i=1,…,n}表示从总体中抽取的一个容量为n的随机样本。

yi=β0+β1xi+ui

在总体中,u与x不相关。因此E(u)=0和cov(x,u)=E(x,u)=0。

用可观测变量x和y以及未知参数β0和β1表示为:

得到

这两个方程可用来解出,则

一旦得到斜率估计值,则有

整理后便得到

根据求和运算的基本性质,有

因此,只要有

估计的斜率就为

所给出的估计值称为β0和β1的普通最小二乘(OLS)估计值。

2.普通最小二乘估计的合理性

已知,第i次观测的残差是yi的实际值与其拟合值之差:

选择β0和β1最小化残差平方和:

“普通最小二乘法”之所以得名,就是因为这些估计值最小化了残差平方和。

一旦确定了OLS截距和斜率估计值,就能够建立OLS回归线:

方程又被称为样本回归函数(SRF),因为它是总体回归函数的一个样本估计。总体回归函数是固定而又未知的。因为样本回归函数来自一组给定的数据样本,所以一个新的样本将使得方程中产生不同的斜率和截距。

三、OLS的操作技巧

1.拟合值和残差

假定从给定数据样本中得到截距和斜率的估计值。给定,能够获得每次观测的拟合值。根据定义,的每个拟合值都在OLS回归线上。

与第i次观测相联系的OLS残差是yi与其拟合值之差。若为正,则回归线低估了yi;若为负,则回归线高估了yi。第i次观测最理想的情况是,但在大部分情形中,并非每个残差都等于零。换言之,实际上没有一个数据点必须在OLS线上。

2.OLS统计量的代数性质

(1)OLS残差和及其样本均值都为零。数学表述为:

(2)回归元和OLS残差的样本协方差为零。

(3)点总在OLS回归线上。

3.定义总平方和(SST)、解释平方和(SSE)和残差平方和(SSR)

SST度量了yi中的总样本变异;这就是说,它度量了yi在样本中的分散程度。SSE度量了yi的样本变异,SSR度量了ui的样本变异。y的总变异总能表示成解释了的变异和未解释的变异之和。因此,SST=SSE+SSR。

不能把残差平方称为“误差平方和”,因为误差和残差是不同的两个量。

4.拟合优度

拟合优度R2,有时又称为判定系数,被定义为R2=SSE/SST=1-SSR/SST。

R2是解释变异与总变异之比,因此被解释成y的样本变异中被解释的部分。因为SSE不可能大于SST,所以R2的值总介于0和1之间。

回归方程中的R2过低是很正常的,对于横截面分析来说,一个看似很低的R2值,并不意味着OLS回归方程没有用。

四、度量单位和函数形式

1.改变度量单位对OLS统计量的影响

(1)当因变量的度量单位改变时,很容易计算出截距和斜率估计值的变化。若因变量乘以一个常数c(意味着样本中的每个数据都乘以c),则OLS截距和斜率的估计值都扩大为原来的c倍。

(2)若自变量被除以或乘以一个非零常数c,则OLS斜率系数也会分别被乘以或者除以c。

(3)仅改变自变量的度量单位,不会影响截距估计值。

(4)模型的拟合优度不依赖于变量的度量单位。利用R2的定义可知,R2事实上不因y或x的单位变化而改变。

2.在简单回归中加入非线性因素

一个给出百分比影响(近似)为常数的模型是:logx=β0+β1y+u。

特别地,若∆u=0,则%∆x≈(100﹒β1)∆y。

自然对数的另一个应用,是得到一个常弹性模型:logx=β0+β1logy+u。

定义因变量为y=logy,自变量为x=logx,这个模型就变成了简单回归模型。

3.对数函数的几种形式

表2-2  含对数的函数形式总览

一般性模型同样允许非线性关系的存在。关键是,方程中的参数β0和β1是线性的,至于被解释变量和解释变量有何联系,并没有限制。

五、OLS估计量的期望值和方差

1.OLS的无偏性

(1)相关假定

假定SLR.1(线性于参数)

在总体模型中,因变量y与自变量x和误差(干扰)u的关系如下:

y=β0+β1x+u

其中,β0和β1分别表示总体的截距和斜率参数。

假定SLR.2(随机抽样)

具有一个服从总体模型方程的随机样本{(xi,yi):i=1,2,…,n},其样本容量为n。

假定SLR.3(解释变量的样本有变异)

x的样本结果即{xi,i=1,…,n}不是完全相同的数值。

假定SLR.4(零条件均值)

给定解释变量的任何值,误差的期望值都为零,E(u|x)=0。

(2)与β1的差异

斜率估计量为

可转换为

其中,。可以看到,的估计量等于总体斜率β1加上误差{u1,u2,…,un}的一个线性组合。以xi的值为条件,的随机性完全来自于样本中的误差。这些误差一般都不为零的事实,正是与β1有差异的原因。

(3)定理2.1:OLS的无偏性

利用假定SLR.1~SLR.4,对β0和β1的任何值,都有。换言之,对β0对β1而言是无偏的。

(4)证明OLS的无偏性

根据假定SLR.2和SLR.4有,于是以xi的值为条件,有

,这就意味着。因此,

2.OLS估计量的方差

(1)相关假定

假定SLR.5(同方差性)

给定解释变量的任何值,误差都具有相同的方差,

(2)定理2.2:OLS估计量的抽样方差

在假定SLR.1~SLR.5下,以样本值{x1,x2,…,xn}为条件,有

(3)证明

因为β1只是一个常数,而且以xi为条件,所以SSTx和di=xi-x也是非随机的。而且,ui在i上(根据随机抽样)是独立的随机变量,故和的方差就是方差的和。所以:

3.误差方差的估计

(1)误差与残差的区分

利用随机样本观测把总体模型写成yi=β0+β1xi+ui,其中ui是第i次观测的误差。还可以将yi用其拟合值和残差表示出来:。比较这两个方程,可以看出,误差出现在包含总体参数β0和β1的方程中。另一方面,残差则出现在使用的估计方程中。误差是无法观测的,但残差却可以从数据中计算出来。

把残差写成误差的函数:

或者

尽管的期望值等于β0的期望值也等于β1,而却不等于ui。但二者之差的期望值倒确实为零。

(2)σ2的无偏估计量

对自由度进行调整:

(3)定理2.3:σ2的无偏估计

在假定SLR.1~SLR.5下,有

证明:如果把方程对所有i进行平均,并利用OLS残差均值为零的结论,便得到

从原方程中减去它,则得到:

对所有i求和,又得到:

等式右边第一项的期望值是(n-1)σ2。第二项的期望值是σ2,第三项的期望是2σ2,则有:

因此E[SSR/(n-2)]=σ2。σ的自然估计量为:。并被称为回归标准误差(SER)。尽管不是σ的无偏估计量,可能够证明它是σ的一致估计量。

的标准误为:

六、过原点回归

规范地,选择一个斜率估计量(称之为)和如下形式的一条线

因为直线经过点x=0,,所以得到的方程又被称为过原点回归。使用普通最小二乘法,此时最小化的残差平方和为

利用一元微积分可以证明,必须满足一阶条件

从而解出为:

当且仅当时,这两个估计值才是相同的。