伍德里奇《计量经济学导论》（第4版）笔记和课后习题详解

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

第1篇　横截面数据的回归分析

第2章　简单回归模型

2.1　复习笔记

一、简单回归模型的定义

1．双变量线性回归模型

一个简单的方程是：y＝β₀＋β₁x＋u。

假定方程在所关注的总体中成立，它便定义了一个简单线性回归模型。因为它把两个变量x和y联系起来，所以又把它称为两变量或者双变量线性回归模型。

2．回归术语

表2-1 简单回归的术语

3．零条件均值假定

（1）零条件均值

u的平均值与x值无关。可以把它写作：E（u｜x）＝E（u）。当方程成立时，就说u的均值独立于x。

（2）零条件均值假定的意义

①零条件均值假定给出β₁的另一种非常有用的解释。以x为条件取期望值，并利用E（u｜x）＝0，便得到：

E（y｜x）＝β₀＋β₁x

方程表明，总体回归函数（PRF）E（y｜x）是x的一个线性函数，线性意味着x变化一个单位，将使y的期望值改变β₁。对任何给定的x值，y的分布都以E（y｜x）为中心。β₁就是斜率参数。

②给定零条件均值假定E（u｜x）＝0，把方程中的y看成两个部分是比较有用的。一部分是表示E（y｜x）的β₀＋β₁x，被称为y的系统部分，即由x解释的那一部分，另一个部分是被称为非系统部分的u，即不能由x解释的那一部分。

二、普通最小二乘法的推导

1．最小二乘估计值

从总体中找一个样本。令{（x_i，y_i）：i＝1，…，n}表示从总体中抽取的一个容量为n的随机样本。

y_i＝β₀＋β₁x_i＋u_i

在总体中，u与x不相关。因此E（u）＝0和cov（x，u）＝E（x，u）＝0。

用可观测变量x和y以及未知参数β₀和β₁表示为：

得到

和

这两个方程可用来解出和，，则。

一旦得到斜率估计值，则有

整理后便得到

根据求和运算的基本性质，有

因此，只要有

估计的斜率就为

所给出的估计值称为β₀和β₁的普通最小二乘（OLS）估计值。

2．普通最小二乘估计的合理性

已知，第i次观测的残差是y_i的实际值与其拟合值之差：

选择β₀和β₁最小化残差平方和：

“普通最小二乘法”之所以得名，就是因为这些估计值最小化了残差平方和。

一旦确定了OLS截距和斜率估计值，就能够建立OLS回归线：

方程又被称为样本回归函数（SRF），因为它是总体回归函数的一个样本估计。总体回归函数是固定而又未知的。因为样本回归函数来自一组给定的数据样本，所以一个新的样本将使得方程中产生不同的斜率和截距。

三、OLS的操作技巧

1．拟合值和残差

假定从给定数据样本中得到截距和斜率的估计值和。给定和，能够获得每次观测的拟合值。根据定义，的每个拟合值都在OLS回归线上。

与第i次观测相联系的OLS残差是y_i与其拟合值之差。若为正，则回归线低估了y_i；若为负，则回归线高估了y_i。第i次观测最理想的情况是，但在大部分情形中，并非每个残差都等于零。换言之，实际上没有一个数据点必须在OLS线上。

2．OLS统计量的代数性质

（1）OLS残差和及其样本均值都为零。数学表述为：

（2）回归元和OLS残差的样本协方差为零。

（3）点总在OLS回归线上。

3．定义总平方和（SST）、解释平方和（SSE）和残差平方和（SSR）

SST度量了y_i中的总样本变异；这就是说，它度量了y_i在样本中的分散程度。SSE度量了y_i的样本变异，SSR度量了u_i的样本变异。y的总变异总能表示成解释了的变异和未解释的变异之和。因此，SST＝SSE＋SSR。

不能把残差平方称为“误差平方和”，因为误差和残差是不同的两个量。

4．拟合优度

拟合优度R²，有时又称为判定系数，被定义为R²＝SSE/SST＝1－SSR/SST。

R²是解释变异与总变异之比，因此被解释成y的样本变异中被解释的部分。因为SSE不可能大于SST，所以R²的值总介于0和1之间。

回归方程中的R²过低是很正常的，对于横截面分析来说，一个看似很低的R²值，并不意味着OLS回归方程没有用。

四、度量单位和函数形式

1．改变度量单位对OLS统计量的影响

（1）当因变量的度量单位改变时，很容易计算出截距和斜率估计值的变化。若因变量乘以一个常数c（意味着样本中的每个数据都乘以c），则OLS截距和斜率的估计值都扩大为原来的c倍。

（2）若自变量被除以或乘以一个非零常数c，则OLS斜率系数也会分别被乘以或者除以c。

（3）仅改变自变量的度量单位，不会影响截距估计值。

（4）模型的拟合优度不依赖于变量的度量单位。利用R²的定义可知，R²事实上不因y或x的单位变化而改变。

2．在简单回归中加入非线性因素

一个给出百分比影响（近似）为常数的模型是：logx＝β₀＋β₁y＋u。

特别地，若∆u＝0，则%∆x≈（100﹒β₁）∆y。

自然对数的另一个应用，是得到一个常弹性模型：logx＝β₀＋β₁logy＋u。

定义因变量为y＝logy，自变量为x＝logx，这个模型就变成了简单回归模型。

3．对数函数的几种形式

表2-2 含对数的函数形式总览

一般性模型同样允许非线性关系的存在。关键是，方程中的参数β₀和β₁是线性的，至于被解释变量和解释变量有何联系，并没有限制。

五、OLS估计量的期望值和方差

1．OLS的无偏性

（1）相关假定

假定SLR.1（线性于参数）

在总体模型中，因变量y与自变量x和误差（干扰）u的关系如下：

y＝β₀＋β₁x＋u

其中，β₀和β₁分别表示总体的截距和斜率参数。

假定SLR.2（随机抽样）

具有一个服从总体模型方程的随机样本{（x_i，y_i）：i＝1，2，…，n}，其样本容量为n。

假定SLR.3（解释变量的样本有变异）

x的样本结果即｛x_i，i＝1，…，n｝不是完全相同的数值。

假定SLR.4（零条件均值）

给定解释变量的任何值，误差的期望值都为零，E（u｜x）＝0。

（2）与β₁的差异

斜率估计量为

可转换为

其中，。可以看到，的估计量等于总体斜率β₁加上误差｛u₁，u₂，…，u_n｝的一个线性组合。以x_i的值为条件，的随机性完全来自于样本中的误差。这些误差一般都不为零的事实，正是与β₁有差异的原因。

（3）定理2.1：OLS的无偏性

利用假定SLR.1～SLR.4，对β₀和β₁的任何值，都有，。换言之，对β₀、对β₁而言是无偏的。

（4）证明OLS的无偏性

根据假定SLR.2和SLR.4有，于是以x_i的值为条件，有

，这就意味着。因此，。

2．OLS估计量的方差

（1）相关假定

假定SLR.5（同方差性）

给定解释变量的任何值，误差都具有相同的方差，。

（2）定理2.2：OLS估计量的抽样方差

在假定SLR.1～SLR.5下，以样本值｛x₁，x₂，…，x_n｝为条件，有

（3）证明

因为β₁只是一个常数，而且以x_i为条件，所以SST_x和d_i＝x_i－x也是非随机的。而且，u_i在i上（根据随机抽样）是独立的随机变量，故和的方差就是方差的和。所以：

3．误差方差的估计

（1）误差与残差的区分

利用随机样本观测把总体模型写成y_i＝β₀＋β₁x_i＋u_i，其中u_i是第i次观测的误差。还可以将y_i用其拟合值和残差表示出来：。比较这两个方程，可以看出，误差出现在包含总体参数β₀和β₁的方程中。另一方面，残差则出现在使用和的估计方程中。误差是无法观测的，但残差却可以从数据中计算出来。

把残差写成误差的函数：

或者

尽管的期望值等于β₀，的期望值也等于β₁，而却不等于u_i。但二者之差的期望值倒确实为零。

（2）σ²的无偏估计量

对自由度进行调整：

（3）定理2.3：σ²的无偏估计

在假定SLR.1～SLR.5下，有。

证明：如果把方程对所有i进行平均，并利用OLS残差均值为零的结论，便得到

从原方程中减去它，则得到：

对所有i求和，又得到：

等式右边第一项的期望值是（n－1）σ²。第二项的期望值是σ²，第三项的期望是2σ²，则有：

因此E［SSR/（n－2）］＝σ²。σ的自然估计量为：。并被称为回归标准误差（SER）。尽管不是σ的无偏估计量，可能够证明它是σ的一致估计量。

的标准误为：

六、过原点回归

规范地，选择一个斜率估计量（称之为）和如下形式的一条线

因为直线经过点x＝0，，所以得到的方程又被称为过原点回归。使用普通最小二乘法，此时最小化的残差平方和为

利用一元微积分可以证明，必须满足一阶条件

从而解出为：

当且仅当时，这两个估计值才是相同的。

上一章目录下一章