伍德里奇《计量经济学导论》(第4版)笔记和课后习题详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 课后习题详解

一、习题

1.在简单线性回归模型y=β0+β1x+u中,假定E(u)≠0。令α0=E(u),证明:这个模型总可以改写为另一种形式:斜率与原来相同,但截距和误差有所不同,并且新的误差期望值为零。

证明:在方程右边加上α0=E(u),则

y=α0+β0+β1x+u-α0

令新的误差项为e=u-α0,因此E(e)=0。

新的截距项为α0+β0,斜率不变为β1

2.下表包含了8个学生的ACT分数和GPA(平均成绩)。平均成绩以四分制计算,且保留一位小数。

(I)利用OLS估计GPA和ACT的关系;也就是说,求出如下方程中的截距和斜率估计值

说明: 15

评价这个关系的方向。这里的截距有没有一个有用的解释?请说明。如果ACT分数提高5分,预期GPA会提高多少?

(II)计算每次观测的拟合值和残差,并验证残差和(近似)为零。

(III)当ACT=20时,GPA的预测值为多少?

(IV)对这8个学生来说,GPA的变异中,有多少能由ACT解释?试说明。

答:(I)变量的均值为:

根据公式2.19可得:

根据公式2.17可知:

因此说明: 16。此处截距没有一个很好的解释,因为对样本而言,ACT并不接近0。如果ACT分数提高5分,预期GPA会提高0.1022×5=0.511。

(II)每次观测的拟合值和残差表如表2-3所示:

表2-3

根据表可知,残差和为-0.002,忽略固有的舍入误差,残差和近似为零。

(III)当ACT=20,则

说明: 17

(IV)残差平方和为:,而,则判定系数为:R2=1-SSR/SST=1-0.4377/1.0288≈0.577。

GPA的变异中,有57.7%能由ACT解释。

3.令kids表示一名妇女生过的孩子数目,educ表示该妇女接受过教育的年数。生育率对受教育年数的简单回归模型为kids=β0+β1educ+u,其中,u是无法观测到的误差。

(I)u中包含什么样的因素?它们可能与受教育程度相关吗?

(II)简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。

答:(I)收入、年龄和家庭背景(如兄弟姐妹的数量)都可能包含在误差项中。它们可能是与受教育程度相关的:收入和受教育程度是呈正相关的;年龄与受教育程度是呈负相关的;兄弟姐妹的数量与受教育程度是负相关的。

(II)假定(I)中所列举的因素固定不变,即以误差项的形式呈现在回归方程中,但是误差项与解释变量是相关的,因此E(u|educ)≠0,经典假定被推翻,因此简单回归分析不能解释教育对生育率在其他条件不变下的影响。

4.假设你对估计花在SAT备考课程上的小时数(hours)对SAT总分(sat)的影响感兴趣。

总体是某一年内所有计划上大学的中学高年级学生。

(I)假设你有权进行一项控制实验。请说明为了估计hours对sat的引致效应,你将如何构建实验。

(II)考虑一个更加实际的情形,即由学生选择在备考课程上花多少时间,而你只能随机地从总体中抽出sat和hours的样本。将总体模型写作如下形式:

sat=β0+β1hours+u

其中,与通常带截距的模型一样,我们可以假设E(u)=0。列举出至少两个u中包含的因素。这些因素与hours可能呈正相关还是负相关?

(III)在(II)的方程中,如果备考课程有效,那么β1的符号应该是什么?

(IV)在(II)的方程中,β0该如何解释?

答:(I)构建实验时,首先随机分配准备课程的小时数,以保证准备课程的时间与其他影响SAT的因素是独立的。然后收集实验中每个学生SAT的数据,建立样本{(sati,houri):i=1,…,n},n表示试验中所包括的学生的数量。根据方程2.7,应该尝试采用尽可能多的有差异的“小时数”。

(II)误差项还可能包含以下三个因素:天赋能力、家庭收入以及考试当天的健康状况。如果学生拥有天赋能力,那么他们不需要为考试花费太多时间,能力与时间是负相关的。家庭收入与学习时间呈正相关关系,因为家庭收入越高,就能负担去越多的课时费用。排除慢性的健康问题,考试当天的健康状况与为准备考试花费的时间是无关的。

(III)如果备考课程有效,β1的符号应该为正,在其他因素相同的情况下,备考时间越多,sat越高。

(IV)截距有一个有用的解释:因为E(u)=0,β0表示备考时间为0时学生获得的平均sat总分。

5.考虑储蓄函数

其中,e是一个随机变量,且有E(e)=0和,假设e独立于inc。

(I)证明:若,则满足零条件均值的关键假设(假定SLR.4)。[提示:若e独立于inc,则]

(II)证明:若,则不满足同方差假定SLR.5。特别地,sav的方差随着inc而增加。[提示:若e和inc独立,则。]

(III)讨论支持储蓄方差随着家庭收入递增的证据。

证明:(I)计算inc的条件期望值时,变为一个常数,因此

(II)inc的方差为:

(III)低收入家庭支出的灵活性较低,因为低收入家庭必须首先支付衣食住行等必需品。而高收入家庭具有较高的灵活性,部分选择更多的消费,而另一部分家庭选择更多的储蓄。这种较高的灵活性暗示高收入家庭中储蓄的变动幅度更大。

6.令分别为OLS截距和斜率估计量,并令为误差(不是残差)的样本均值。

(I)证明:可写成,其中wi=di/SSTi和

(II)利用(I)及,证明:无关。[提示:要求你证明]。

(III)证明可写成

(IV)利用(II)和(III)证明:

(V)(IV)中的表达式能简化成方程(2.58)吗?[提示:。]

证明:(I)该理论推导与公式2.52的推导本质上是一样的,区别只是将wi=di/SSTi代到求和的里面。

(II)因为,公式右边等于0。从(I)可知,

因为误差项两两互不相关,则E(uiuk)=0,i≠h,。因此

(III)最小二乘估计的截距公式为:,代入,则

(IV)因为是不相关的,则有:

(V)能。

根据,则

7.利用Kiel and McClain(1995)有关1988年马萨诸塞州安德沃市的房屋出售数据,如下方程给出了房屋价格(price)和距离一个新修垃圾焚化炉的距离(dist)之间的关系:

说明: 22

(I)解释log(dist)的系数。它的符号是你所预期的吗?

(II)你认为简单回归给出了price对dist在其他条件不变下弹性的无偏估计量吗?(考虑一个城市决定放置焚化炉的地点的决策。)

(III)还有哪些其他因素影响房屋的售价?这些因素会与距离焚化炉的远近相关吗?

答:(I)符号为正,与预期相符。log(dist)的系数表示距离焚化炉的距离越远,价格就越高,价格的距离弹性是0.312,即距离远1%,价格上升31.2%。

(II)如果城市决定将焚化炉放置在远离较贵的居民区的地方,则log(dist)与房价是正相关的。这将违背假定4,而OLS估计是有偏的。

(III)房屋的面积、洗手间的数量、占地面积大小、房龄社区质量(包括学校质量)都会影响房屋的售价。这些与距离焚化炉的远近是有关的。

8.(I)令为yi对xi进行回归的截距和斜率(有n次观测);c1和c2为常数且c2≠0;为c1yi对c2xi进行回归的截距和斜率。证明,从而验证了2.4节中关于度量单位的命题。[提示:为得到,把改变了度量单位的x和y代入方程(2.19)。然后用方程(2.17)求,确定代入的是进行度量单位变换后的x和y以及正确的斜率。

(II)现在令得自(c1+yi)对(c2+xi)的回归(对c1和c2不加任何限制)。

证明:

(III)令为log(yi)对xi回归的OLS估计值,其中我们必须假定对所有i,都有yi>0。对c1>0,令为log(c1yi)对xi回归的截距和斜率。证明:

(IV)现在假定对所有i,都有x>0。令为yi对log(c2xi)回归的截距和斜率。与yi对log(xi)回归的截距和斜率相比如何?

答:(I)因为,当为c1yi对c2xi进行回归时,可以通过方程2.19得到方程的斜率:

根据公式2.17可得截距项为:

(II)使用与(I)相同的方法,可得

因此

在(c1+yi)对(c2+xi)的回归中,c1和c2被完全排除在斜率公式以外,以及。截距为:

(III)因为log(c1yi)=log(c1)+log(yi),令c1代替log(c1),yi代替log(yi),且c2=0,然后采用与(II)相同的方法。

(IV)采用与(II)相同的方法,设c1=0,c2替代log(c2),xi替代log(xi),如果是原截距和斜率,那么此时的截距和斜率为:

9.在线性消费函数说明: 19中,收入的(估计)边际消费倾向(MPC)无非就是斜率,而平均消费倾向(APC)为说明: 20。利用对100个家庭的年收入和消费观测(均以美元计),便得到如下方程:

说明: 21

(I)解释这个方程中的截距,并评价它的符号和大小。

(II)当家庭收入为30000美元时,预计消费为多少?

(III)以inc为横轴,画出估计的MPC和APC图。

答:(I)截距表示当inc=0,cons预计将为-124.84美元。但这与事实不符,反映出消费函数在预测方面(尤其是收入处于较低的水平上时)是薄弱的。从年同比角度而言,124.84美元与0美元的差距并没有那么大。

(II)将30000美元代入方程:预计消费=-124.84+0.853×30000=25465(美元)。

(III)MPC和APC如图2-1所示。即使截距是负的,样本中最小的APC是正的。图中从年均收入水平1000美元开始。

图2-1

10.在高斯-马尔可夫假定SLR.1~SLR.5之下,考虑标准的简单回归模型y=β0+β1x+u。通常的OLS估计量都是各自总体参数的无偏估计量。令β1表示通过假定截距为零而得到β1的估计量(见2.6节)。

(I)用x1、β0和β1表示E(β1)。证明:当总体截距(β0)为零时,是β1的无偏估计量。有没有其他的情况使得也是无偏的?

(II)求的方差。(提示:方差不依赖于β0。)

(III)证明。[提示:对任何数据样本,,除非,否则该式严格不等。]

(IV)当我们要从中做出选择时,评论偏误和方差的替代关系。

答:(I)从方程2.66可知:

将yi=β0+β1xi+ui代入可得:

分子化简后可写为:

因此

对于所有的i而言,E(ui)=0,则:

上式中右边的第一项表示的偏差。当β0=0、时,是无偏的。

(II)根据(I)中所表示的,可得方差为:

(III)根据公式2.57,

对任何数据样本,

除非。因此

(IV)对于给定的样本而言,当增加,的有偏程度增加。但是当增加时,的变化与是相关的。当β0较小时,的偏差也很小。因此β0、以及样本大小n(的规模)决定了在均方误差上和的优劣。

11.数据集BWGHT.RAW包含了美国妇女生育方面的数据。我们关心的两个变量是因变量[婴儿出生体重的盎司数(bwght)]和解释变量[母亲在怀孕期间平均每天抽烟的根数(cigs)]。下面这个简单回归是用n=1388个出生数据进行估计的:

说明: 18

(I)当cigs=0时,预计婴儿的出生体重为多少?当cigs=20(每天一包)时呢?评价其差别。

(II)这个简单回归能够得到婴儿出生体重和母亲抽烟习惯之间的因果关系吗?请解释。

(III)要预测出生体重125盎司,cigs应该为多少?

(IV)样本中在怀孕期间不抽烟的妇女比例约为0.85。这有助于解释第(III)部分中的结论吗?

答:(I)当cigs=0时,预计婴儿的出生体重为119.77盎司;当cigs=20时,预计婴儿的出生体重为109.49盎司,比前者下降8.6%。

(II)不能。因为还有其他因素影响婴儿的出生体重,如母亲的整体健康状况和产前护理的质量。这些因素可能与怀孕期间吸烟量是相关的。另外,咖啡因的摄入也会影响到婴儿的出生体重,这也与吸烟量相关。

(III)要预测出生体重为125盎司,那么cigs=(125-119.77)/(-0.524)≈-10.18。这是无意义的,它表明在一个解释变量的情况下预测出生体重会发生的后果。尽管有约700名婴儿的出生体重大于119.77盎司,但最大的预测出生体重不能超过119.77盎司。

(IV)因为模型仅仅使用吸烟量来解释出生体重,因此仅有一个结果:即cigs=0时的出生体重。cigs=0时的预测结果必然大致位于样本数据的中间位置,因此可以预测高出生率。

二、计算机习题

1.401K.RAW中的数据是帕普克(Papke,1995)所分析数据的一个子集,帕普克是为了研究401(k)养老金计划的参与率和该计划的慷慨程度之间的关系。变量prate是有资格参与该计划的员工中拥有活动账户的百分比,也是我们要解释的变量。慷慨程度指标是计划的匹配率mrate。这个变量给出了员工每向这个账户存1美元,公司为该员工匹配的平均数量。例如,若mrate=0.50,则员工每投入1美元,公司就匹配50美分。

(I)求出该计划的样本中平均参与率和平均匹配率。

(II)现在估计下面这个简单回归方程说明: 23报告你的结果以及样本容量和R2

(III)解释你的方程中的截距。解释mrate的系数。

(IV)当mrate=3.5时,求出prate的预测值。这是一个合理的预测吗?解释这里出现的情况。

(V)prate的变异中,有多少是由mrate解释的?你认为,这是一个足够大的量吗?

答:(I)平均参与率是87.63%,平均匹配率是0.732。

(II)回归方程为:

说明: 24

(III)截距表示即使mrate=0,预测的参与率是83.05%。mrate的系数表明匹配率每增加1美元,则有资格参与该计划的员工中拥有活动账户的百分比(prate)增加5.86%。该结果假定prate的变动是可能的。如果prate已经达到98%,那么截距就是无意义的。

(IV)mrate=3.5,则

说明: 25

这不是一个合理的预测,因为参与率不超过100%。这表明因变量是有界限的,简单回归所预测的自变量的极值是不符合常理的。

(V)prate的变异中,有7.5%是由mrate解释的,说明还有其他因素影响养老金计划参与率。

2.数据集CEOSAL2.RAW包含了美国公司首席执行官的信息。变量salary是以千美元计的年薪,ceoten是已担任公司CEO的年数。

(I)求出样本中的平均年薪和平均任期。

(II)有多少位CEO尚处于担任CEO的第一年(就是说,ceoten=0)?最长的CEO任期是多少?

(III)估计简单回归模型log(salary)=β0+β1ceoten+u,用通常的形式报告你的结果。多担任一年CEO,预计年薪增长(近似)的百分数是多少?

答:(I)平均年薪为865.864千美元,平均任期为7.95年。

(II)有5位CEO处于担任CEO的第一年。最长的CEO任期是37年。

(III)回归方程是:

说明: 26

多担任一年CEO,预计年薪增长的近似百分数是0.97%(或1%)。

3.利用Biddle and Hamermesh(1990)中的SLEEP75.RAW数据,研究在每周用于睡眠的时间和用于有酬工作的时间之间是否存在替代关系。我们可以用它们中的任何一个作为因变量。为具体起见,估计模型sleep=β0+β1totwrk+u。

其中,sleep是每周用于晚上睡眠的分钟数,totwrk是这一周中用于工作的分钟数。

(I)用方程的形式,连同观测的次数和R2报告你的结果。该方程中的截距表示什么?

(II)若totwrk增加2小时,则sleep估计要减少多少?你觉得这是一个很大的效应吗?

答:(I)估计方程为:

说明: 27

截距表示不工作的人每周用于晚上睡眠的时间为3586.4分钟。这意味着每晚睡眠的时间达到8.5小时。

(II)当∆totwrk=120,则∆sleep=-0.151×120=-18.12(分钟)。这并不是一个很大的效应。如果某人工作日的工作时间均增加一小时,睡眠总减少时间约为45分钟,平摊在每晚只有约6分钟。

4.利用WAGE2.RAW中的数据估计一个简单回归,以便用智商(IQ)来解释月薪(wage)。

(I)求出样本中的平均工资和平均IQ。IQ的样本标准差是多少?(总体中的IQ已标准化为平均值是100,标准差是15。)

(II)估计一个简单回归模型,其中IQ提高一个单位导致wage变化相同的数量。利用这个模型计算IQ提高15个单位时,工资的预期变化。IQ能够解释大多数工资变异吗?

(III)现在再估计一个模型,其中IQ提高一个单位对工资具有相同的百分比影响。如果IQ提高15个单位,预期工资提高的百分比大约是多少?

答:(I)平均工资为957.95美元,平均IQ为101.28。IQ的样本标准差为15.05,与总体标准差非常接近。

(II)简单回归模型为:

说明: 1

IQ提高15个单位导致工资变化8.3×15=124.5(美元)。IQ不能够解释大多数工资变异,薪水的变异中,仅有9.6%是由IQ解释的。

(III)回归模型为:

说明: 29

如果IQ提高15个单位,则

说明: 30

因此预期工资提高的百分比大约是13.2%。

5.在化工产业的企业总体中,令rd表示年研发支出,sales表示年销售额(都以百万美元计)。

(I)写一个模型(不是估计方程),其中rd和sales之间的弹性为常数。哪一个参数代表弹性?

(II)再用RDCHEM.RAW中的数据估计模型。用通常的形式写出估计方程。rd关于sales的弹性估计值是多少?用文字解释这个弹性的含义。

答:(I)不变弹性的对数—对数模型为:log(rd)=β0+β1log(sales)+u,参数β1代表弹性。

(II)估计方程为:

说明: 31

rd关于sales的弹性估计值是1.076,说明sales每增长1%,rd将会增长1.08%。

6.例2.12中曾使用了MEAP93.RAW中的数据。现在,我们想用这个文件中的数据来说明数学通过率(math10)与每个学生的平均支出(expend)之间的关系。

(I)就多花一美元对通过率的影响而言,你认为具有恒定不变的影响合适呢,还是这种影响越来越小更合适?请加以解释。

(II)在总体模型math10=β0+β1log(expend)+u中,证明β1/10表示expend提高10%导致math10改变的百分数。

(III)利用MEAP93.RAW中的数据,估计(II)中的模型。按照通常的方式报告估计方程,包括样本容量和及R2

(IV)支出的估计影响有多大?也就是说,如果支出提高10%,估计math10会提高多少个百分点?

(V)有人担心这个回归分析可能得到math10的拟合值会超过100。为什么在这个数据集中不必担心这个问题?

答:(I)多花一美元对通过率的影响而言,这种影响越来越小更合适。在支出较小的学校,多花钱可以用于购买更多的教材、电脑以及雇用高质量的教师,但在一个高支出水平上,即已经具备了大量教材、足够好的设备和高质量的教师时,再增加支出对通过率的影响几乎没有,即使有也会很小。

(II)∆math10=β1∆log(expend)≈(β1/100)(%∆expend),如果%∆expend=10,则∆math10=β1/10。

(III)估计方程为:

说明: 1

(IV)支出提高10%,估计math10会提高1.1%。支出的估计影响并不大,但这对低支出水平的学校而言是无影响的,因为10%的支出增加从绝对数量上看是很小的。

(V)在这个数据集中,最大的math10为66.7,远小于100。实际上,最大的拟合值仅为30.2。

7.利用CHARITY.RAW中的数据[得自于Franses and Paap(2001)]回答如下问题:

(I)在这个4268人的样本中,平均捐款数量是多少(以荷兰盾为单位)?没有捐款的人数百分比是多少?

(II)每年平均寄出的邮件数量是多少?其最小值和最大值是多少?

(III)用普通最小二乘法估计如下模型:

gift=β0+β1mailsyear+u

按照通常的方式报告估计方程,包括样本容量和R2

(IV)解释斜率系数。如果每封邮件的成本是1盾,那么慈善机构预期能够从寄出的每一封邮件中获得净利润吗?这意味着慈善机构从每封邮件中都获得了净利润吗?请加以解释。

(V)样本中最小慈善捐款的预测值是多少?利用这个简单的回归分析,你有可能预测gift等于0吗?

答:(I)平均捐款数量为7.44荷兰盾。在4268个被调查者中,2561人没有捐款,占60%。

(II)每年平均寄出的邮件量为2.05。最小值为0.25,这意味着有人每四年寄出一封邮件,最大值为3.5。

(III)估计方程为:

说明: 1

(IV)斜率系数为2.65,意味着年均邮件量导致了额外2.65荷兰盾的捐赠。如果每一封邮件的成本是1盾,那么每封邮件的预期净收益则是1.65盾,然而这只是从平均角度而言的,并不意味着慈善机构从每封邮件中都获得了净利润。部分邮件对捐赠量没有任何贡献,或者其贡献额小于邮寄成本,部分邮件可能产生远高于邮寄成本的捐赠量。

(V)样本中最小慈善捐款的预测值是:2.01+2.65×0.25=2.67。即使从总体来看,某些人没有收到邮件,最小慈善捐款为2。因此不可能预测gift等于0。