4.2 课后习题详解
一、习题
1.考虑一个用企业年销售额、股本回报率(roe,以百分数表示)和企业股票的回报ros,以百分数表示)来解释CEO薪水的如下方程:log(salary)=β0+β1log(sales)+β2roe+β3ros+u。
(i)用模型参数来表述如下虚拟假设:在控制了sales和roe后,ros对CEO的薪水没有影响。再给出对立假设的参数表述:股票市场更好的业绩会提高CEO的薪水。
(ii)使用CEOSAL1.RAW中的数据,通过OLS可以得到如下方程:
如果ros提高50个百分点,预计salary会提高多大比例?ros对salary具有实际上很大的影响吗?
(iii)检验ros对salary没有影响的虚拟假设,对立假设是具有正效应。在10%的显著性水平上进行检验。
(iv)你最后会在一个用企业业绩表示CEO报酬的模型中包括ros吗?给出你的解释。
答:(i)虚拟假设为:H0:β3=0;对立假设为:H1:β3>0。
(ii)如果ros提高50个百分点,预计salary会提高0.00024×50=0.012=1.2%。ros对salary不具有实际上很大的影响。
(iii)自由度为无穷大,10%的显著性水平下,单侧检验的临界值为1.282。t统计量为:0.00024/0.00054≈0.44,小于临界值,因此在10%的显著水平上不能拒绝虚拟假设,即ros对salary没有影响。
(iv)会。基于样本而言,估计的ros系数看起来并不等于0的原因是抽样差异;另一方面,在模型中包含ros不会造成任何伤害,这取决于它与其他的自变量之间的相关关系。
2.下面哪种因素可能导致通常OLS的t统计量无效(即在H0下不服从t分布)?
(i)异方差性;
(ii)模型中两个自变量之间的样本相关系数达到0.95;
(iii)遗漏一个重要的解释变量。
答:(i)和(iii)可能导致通常OLS的t统计量无效。同方差性是CLM假定之一。遗漏一个重要的变量违背了假定MLR.3。
(ii)CLM假定除了排除相关系数等于1的情况外,并没有涉及自变量之间的相关性。
3.在例4.7中,我们利用非工会制造企业的数据估计了废品率与其他企业特征之间的关系。我们现在来更深入地分析这个例子,并使用一个更大的企业样本。
(i)例4.7中待估计的总体模型可写成log(scrap)=β0+β1hrsemp+β2log(sales)+β3log(employ)+u,利用1987年的43个观测,所估计的方程是
将这个方程与仅用样本中29个非工会企业估计出来的结果进行对比。
(ii)证明这个总体模型也可以写成log(scrap)=β0+β1hrsemp+β2log(sales/employ)+θ3log(employ)+u,其中θ3=β2+β3。[提示:log(x2/x3)=log(x2)-log(x3)。]解释假设H0:θ3=0。
(iii)当估计第(ii)部分的方程时,我们得到
控制了工人培训和销售—雇员比后,是否企业越大,其废品率在统计上的显著性越大?
(iv)检验假设:sales/employ提高1%将伴随以废品率下降1%。
答:(i)当hrsemp的标准误不变,系数将会增加一半。t统计量从-1.47下降到-2.21,在5%的显著性水平上,临界值为-1.684,t统计量小于临界值,左侧检验下系数显著地小于零。
(ii)如果在方程的右边加上β2log(sales),可得:
log(scrap)=β0+β1hrsemp+[β2log(sales)-β2log(employ)]+[β2log(employ)+β3log(employ)]+u=β0+β1hrsemp+β2log(sales/employ)+θ3log(employ)+u
(iii)企业越大,其废品率在统计上的显著性不一定越大。log(employ)系数的t值为0.2,非常小。因此控制了工人培训和销售-雇员比后,可以断定以雇员多少而决定的企业规模与废品率无关。
(iv)(ii)中的虚拟假设为:H0:β2=-1。t统计量为:(-0.951-1)/0.37≈0.132,该t值非常小,无法拒绝虚拟假设。
4.使用CEOSAL2.RAW中的数据得出下表:
变量mktval为企业的市场价值,profmarg为利润占销售额的百分比,ceoten为其就任当前公司CEO的年数,而comten则是其在这个公司任职的总年数。
(i)评论profmarg对CEO薪水的影响。
(ii)市场价值是否具有显著影响?试解释你的结论。
(iii)解释ceoten和comten的系数。这些变量是统计显著的吗?
(iv)你如何解释在其他条件不变的情况下,你在这个公司任职时间越长,你的薪水则越低?
答:(i)据表中(2)、(3)可知,profmarg的系数为负,t统计量为为-1。因此在企业的市场价值和销量固定的情况下,边际利润对CEO的薪水无影响。
(ii)据表中(3)可知,log(mktval)的t统计量为2.05,在5%的显著性水平上的临界值为1.96,因此是统计显著的。所以市场价值具有显著影响。
(iii)&(iv)这些变量在低显著性水平上是个别显著的。因为tceoten≈3.11,tcomten≈-2.79。其他变量固定的情况下,就任公司CEO的年份增加一年,薪水增长1.71%。在公司任职(非CEO)增加一年,薪水减少0.92%。第二个结论看起来令人惊讶,但它正是反映了“明星”效应:企业从公司外部聘用CEO都倾向于一小群被高度评价的候选人,因此这些人的工资被哄抬起来,而非CEO职员的聘用不大可能像CEO一样。
5.在4.5节,我们使用了一个检验住房价格定价理性的例子。在那里,我们使用了price和as-sess的一个对数一对数模型[参见方程(4.47)]。这里,我们采用一个水平值一水平值的表述。
(i)对于如下简单回归模型:
price=β0+β1assess+u
若β1=1和β0=0,则评价是理性的。所估计的方程是
首先,相对双侧对立假设,检验假设H0:β0=0。然后,相对双侧对立假设,检验H0:β1=1。你的结论是什么?
(ii)为了检验联合假设β0=0和β1=1,我们需要约束模型的SSR。这就要求在n=88的情况下计算
因为约束模型的残差刚好为pricei-assessi。(由于两个参数在H0下都被设定,把以不需要约束模型的估计值。)这最终得到SSR=209448.99。对这个联合假设进行F检验。
(iii)现在检验模型price=β0+β1assess+β2lotsize+β3sqrft+β4bdrms+u。假设H0:β2=0,β3=0和β4=0。利用同样88个住房数据估计这个模型的R2是0.829。
(iv)如果price的方差随着assess,sqrft,lotsize或bdrms而变化,你对第(iii)部分的F检验有什么看法?
答:(i)自由度为88-2=86,在5%的显著性水平下,双侧检验的临界值是1.987。H0:β0=0的t统计量为0.89,因此不能拒绝虚拟假设。H0:β1=1的t统计量为(0.976-1)/0.049≈-0.49,同样是统计不显著的,因此无法拒绝虚拟假设。
(ii)因为SSRr=209448.99,SSRur=165644.51,因此F统计量为:
查表可得,1%显著水平上,自由度分别为2和90的临界值为4.85,因此拒绝虚拟假设。
(iii)采用R2型的F统计量,无约束模型中的自由度为88-5=83。F统计量为:
在10%的显著性水平上,临界值为2.15,因此不能拒绝原假设。此时p值为0.23。
(iv)如果存在异方差性,则违背了MLR.5,在零假设条件下,F统计量服从F分布。因此,将F统计量与临界值相比较,或从F分布得到p值都是没有意义的。
6.回归分析还可以用来检验市场是否在评价股票时有效地使用了市场信息。为简单起见,令return为持有一个企业的股票在从1990年末到1994年末的四年时间内得到的总回报。有效市场假设认为,这些回报不应该与1990年知道的信息存在系统相关性。如果在期初知道的企业特征有助于预测股票回报,那我们在选择股票时就能用到这个信息。对于1990年,令dkr表示企业的债务—资本比率,eps表示每股收益,netinc表示净收入,而salary则表示CEO的总报酬。
(i)使用RETURN.RAW中的数据,估计了如下方程:
检验这些解释变量在5%的显著性水平上是否联合显著。存在个别显著的解释变量吗?
(ii)现在使用netinc和salary的对数形式重新估计这个模型
第(i)部分的结论有没有什么变化?
(iii)在第(ii)部分中,我们为什么不用dks和eps的对数?
(iv)总的看来,股票回报可预测性的证据是强还是弱?
答:(i)已知n=142,k=4,因此F统计量为:
5%的显著性水平,分子自由度为4,分母自由度为137的临界值为2.45,大于F统计量,因此不能拒绝虚拟假设,即解释变量在5%的显著性水平上联合不显著。
变量dkr的t统计量最大,为1.6,小于临界值1.96,因此在5%的显著性水平下,不存在个别显著的解释变量。
(ii)F统计量为:,小于临界值,因此解释变量在5%的显著性水平上联合不显著。同样不存在在合理的显著性水平上显著的统计量。
(iii)log不能定义dkr或eps为零的企业,因此采用log形式,将可能在回归中丢失部分企业的数据。
(iv)股票回报可预测性的证据是弱的。在5%的显著性水平上,没有t统计量是显著的,同时F统计量也是不显著的。报酬的变异中,只有3.3%的部分能被解释变量解释。
7.考虑例4.3中的估计方程,这个方程可以被用来研究缺课对大学平均成绩的影响:
(i)利用标准正态近似,求出βhsGPA在置信水平为95%时的置信区间。
(ii)相对于双侧对立假设,你能在5%的显著性水平上拒绝假设H0:βhsGPA=0.4吗?
(iii)相对于双侧对立假设,你能在5%的显著性水平上拒绝假设H0:βhsGPA=1吗?
答:(i)βhsGPA在置信水平为95%时的置信区间为:[0.412-1.96×0.094,0.412+1.96×0.094]。
(ii)不能。因为0.4位于置信区间内。
(iii)能。因为1在置信区间以外。
8.在习题3.4中,我们估计了方程
其中的标准误是我们现在才同估计值一并给出的。
(i)相对于一个双侧对立假设,是educ还是age在5%的水平上是个别显著的?给出你的计算。
(ii)从方程中去掉educ和age,则得到
在5%的显著性水平上,educ和age在原方程中是联合显著的吗?说明你所给答案的理由。
(iii)在模型中包括educ和age,是否显著影响所估计的睡眠和工作之间的替换关系?
(iv)假设睡眠方程含有异方差性。这对第(i)和(ii)部分计算的检验意味着什么?
答:(i)自由度为:706-2=704;在双侧检验中,5%的显著性水平上,标准临界值为1.96,educ的t统计量为:-11.13/5.88≈-1.89,因此无法拒绝虚拟假设βeduc=0。同样,age的t统计量为1.52,小于临界值,因此是统计不显著的。
(ii)采用R2型的F统计量,F统计量为:
在5%的显著水平上,临界值为3,小于F统计量,因此educ和age在原方程中是联合显著的。实际上,p值为0.019,因此变量在2%的显著性水平上联合显著。
(iii)不影响所估计的睡眠和工作之间的替换关系。因为变量是联合显著的,包含educ和age只使得totwrk的系数由-0.151变为-0.148。
(iv)t检验和F检验成立的假设之一是同方差性。如果方程存在异方差性,那么第(i)和(ii)部分的检验将不再有效。
9.租金率是否受到一个大学城里学生人数的影响呢?令rent表示美国一个大学城里单位租借面积的平均月租金,pop表示总城市人口,avginc表示城市平均收入,pctstu表示学生人数占总人口的百分比。一个检验某种关系的模型是log(rent)=β0+β1log(pop)+β2log(avginc)+β3pctstu+u。
(i)表述虚拟假设:在其他条件不变的情况下,学生人数相对于总人口的多少对月租金没有影响。并表述有影响的对立假设。
(ii)你预期β1和β2具有什么样的符号?
(iii)利用RENTAL.RAW中64个大学城在1990年的数据所估计的方程为
“总人口增加10%将伴随着租金提高约6.60%”的说法有什么不妥?
(iv)在1%的显著性水平上检验第(i)部分陈述的假设。
答:(i)虚拟假设为:H0:β3=0;对立假设:H1:β3≠0。
(ii)其他条件相同的情况下,总人口增加使租房需求增加,从而租金增加。当平均收入更高时,对整体住房的需求增加,推高了房地产的成本,包含租金率。因此β1和β2都是正的。
(iii)log(pop)的系数表示的是弹性,正确的说法应该是:总人口增加10%,租金将提高0.66%。
(iv)自由度为60,1%的显著性水平下,双侧检验的临界值为2.66。t统计量是3.29,大于临界值,因此拒绝虚拟假设,β3统计显著地不等于0。
10.在经典线性模型假定MLR.1~MLR.6下,考虑含有三个自变量的多元回归模型:y=β0+β1X1+β2X2+β3X3+u,你想检验的虚拟假设是H0:β1-3β2=1。
(i)令和表示β1和β2的OLS估计量。用和的方差及其协方差求出。的标准误是什么?
(ii)写出检验H0:β1-3β2=1的t统计量。
(iii)定义θ1=β1-3β2和,写出一个涉及β0,θ1,β2和β3的回归方程,使你能直接得到及其标准误。
答:(i)
标准误为:
(ii)t统计量为:。
(iii),代入模型中可得:y=β0+(θ1+3β2)X1+β2X2+β3X3+u=β0+θ1X1+(3X1+X2)β2+β3X3+u,此即为涉及β0,θ1,β2和β3的回归方程,即为X1的系数。
11.变量rdintens是研发支出(R&D)占销售额的百分比。销售额以百万美元度量。变量profmarg是利润占销售额的百分比。
利用RDCHEM.RAW中32家化工企业的数据,估计如下方程:
(i)解释log(sales)的系数。特别地,如果sales增加10%,估计rdintens会变化多少个百分点?这在经济上是一个很大的影响吗?
(ii)检验假设R&D的强度不随sales而变化,对立假设是,它随着销售额的增加而提高。在5%和10%的显著性水平上进行这个检验。
(iii)解释profmarg的系数,它在经济上显著吗?
(iv)profmarg对rdintens是否有统计显著的影响?
答:(i)保持profmarg不变,
因此,如果%∆sales=10,。估计rdintens会变化3个百分点,相对于sales的变动,并不是一个很大的影响。
(ii)虚拟假设:H0:β1=0,对立假设为:H1:β1>0。β1是log(sales)的系数。t统计量为:0.321/0.216≈1.486。进行单侧检验,在5%的显著性水平上,自由度为29,临界值为1.699,因此在该显著性水平上不能拒绝虚拟假设。但是在10%的显著性水平上,临界值为1.311,小于t统计量,拒绝虚拟假设,即R&D的强度随着销售额的增加而提高。
(iii)profmarg的系数在经济上显著。根据先验经验,当利润越高,无论是出于避税目的还是提升企业自主创新能力的需要,研发支出都会越高,因此profmarg的系数是正的,符合一般规律。
(iv)profmarg对rdintens的影响统计不显著。因为其t统计量等于1.087,小于在10%的显著性水平上单侧检验的临界值。
二、计算机习题
1.如下模型可用来研究竞选支出如何影响选举结果:
voteA=β0+β1log(expendA)+β2log(expendB)+β3prtystrA+u
其中,voteA表示候选人A得到的选票百分数,expendA和expendB分别表示候选人A和B的竞选支出,而prtystrA则是对A所在党派实力的一种度量(A所在党派在最近一次总统选举中获得的选票百分比)。
(i)如何解释β1?
(ii)用参数表述如下虚拟假设:A的竞选支出提高1%被B的竞选支出提高1%所抵消。
(iii)利用VOTE1.RAW中的数据来估计上述模型,并以通常的方式报告结论。A的竞选支出会影响结果吗?B的支出呢?你能用这些结论来检验第(ii)部分中的假设吗?
(iv)估计一个模型,使之能直接给出检验第(ii)部分中假设所需用的t统计量。你有什么结论?(使用双侧对立假设。)
答:(i)保持其他因素固定不变,则有∆voteA=β1∆log(expendA)=(β1/100)[100﹒log(expendA)]≈(β1/100)[%∆expendA],因此当expendA增加1%,voteA变动(β1/100)个百分点。
(ii)虚拟假设为:H0:β2=-β1,这意味着A的竞选支出提高z%,同时B的竞选支出提高z%,从而voteA不变。因此虚拟假设可写为:H0:β2+β1=0。
(iii)估计方程为:
log(expendA)的系数是非常显著的,因为其统计量为15.92,log(expendB)的系数也是显著的。估计方程表明在其他条件不变的情况下,候选人A支出增加10%,候选人A得到的选票百分数将增加0.61%。在其他条件不变的情况下,候选人B支出增加10%,候选人A得到的选票百分数将减少0.66%。这些效应是不能被忽略的。
假设log(expendA)的系数与log(expendB)的系数大小相等,符号相反,那么将不存在,但在假设检验中,需要该标准误。因此不能用这些结论来检验第(ii)部分中的假设。
(iv)令θ1=β1+β2,代入原方程可得:
估计该方程可得:和。第(ii)部分的t统计量为:-0.532/0.533≈1。因此不能拒绝虚拟假设。
2.本题要利用LAWSCH85.RAW中的数据。
(i)使用与第3章习题4一样的模型,表述并检验虚拟假设:在其他条件不变的情况下,法学院排名对起薪中位数没有影响。
(ii)新生年级的学生特征(即LAST和GPA)对解释salary而言是个别或联合显著的吗?
(iii)检验是否要在方程中引入入学年级的规模(clsize)和教职工的规模(faculty);只进行一个检验。(注意解释clsize和faculty的缺失数据。)
(iv)还有哪些因素可能影响到法学院排名,但又没有包括在薪水回归中?
答:(i)模型为:
log(salary)=β0+β1LAST+β2GPA+β3log(libvol)+β4log(cost)+β5rank+u
虚拟假设为:H0:β5=0。估计方程为:
rank的t统计值为-11,非常显著。如果rank减少10,起薪中位数预期增加3.3%。
(ii)LAST是统计不显著的,因为t≈1.18,但是GPA是统计显著的,t≈2.76。给定GPA高度显著的情况下,F统计量等于9.95,p值约为0.0001,因此联合显著性的检验是无实际意义的。
(iii)在模型中引入入学年级的规模和教职工的规模时,将会丢失数据。联合显著性检验的F统计量为0.95,p值为0.39。除非使用较大的显著性水平,否则两个变量之间不是联合显著的。
(iv)排名本身带有一定程度的不可测性,而且排名可能部分依赖于一些不影响学生质量的琐碎因素。LAST和GPA是学生质量的好的控制因素。性别和种族的差异也是影响薪水的因素。然而,并不确定这些因素与排名相关的原因。由出版物的发行记录来衡量的教职工的质量应该被囊括在内。
3.参考第3章习题14。现在,我们使用住房价格的对数作为因变量:log(price)=β0+β1sqrft+β2bdrms+u。
(i)你想在住房增加一个150平方英尺的卧室的情况下,估计并得到price变化百分比的一个置信区间。以小数形式表示就是θ1=150β1+β2。使用HPRICE1.RAW中的数据去估计θ1。
(ii)用θ1和β1表达β2,并代入log(price)的方程。
(iii)利用第(ii)部分中的结果得到的标准误,并使用这个标准误构造一个95%的置信区间。
答:(i)估计模型为:
因此,表明在住房增加一个150平方英尺的卧室的情况下,预期价格将上涨8.6%。
(ii)因为β2=θ1-150β1,则有log(price)=β0+β1sqrft+(θ1-150β1)bdrms+u=β0+β1(sqrft-150bdrms)+θ1bdrms+u。
(iii)对(ii)中的模型进行回归,可得,且已知,则95%的置信区间为(0.0326,0.1390)。
4.在例4.9中,可以使用样本中所有1388个观测数据去估计约束模型。使用所有观测值计算bwght对cigs,parity和faminc回归的R2,并与例4.9中约束模型所报告的R2相比较。
答:使用样本中所有1388个观测数据,可得R2=0.0348。当错误的使用了从无约束模型中的1191个观测数据得出的R2(0.0348)时,可以得到F统计量:
F=[(0.0387-0.0348)/(1-0.0387)](1185/2)≈2.4
p值为0.091,在10%的显著性水平上,是显著的,不拒绝虚拟假设。但是这不是正确的结果,正确的F值是例4.9中使用的1.42,p值为0.242,此时拒绝虚拟假设。
5.本题要用到MLB1.RAW中的数据。
(i)使用方程(4.31)中所估计的模型,并去掉变量rbisyr。hrunsyr的统计显著性会怎么样?hrunsyr的系数大小又会怎么样?
(ii)在第(i)部分的模型中增加变量runsyr(每年垒得分),fldperc(防备率)和sbasesyr(每年盗垒数)。这些因素中,哪一个是个别显著的?
(iii)在第(ii)部分的模型中,检验bavg,fldperc和sbasesyr的联合显著性。
答:(i)如果去掉变量rbisyr,则估计模型变为:
此时hrunsyr是统计显著的,因为t≈4.99,它的系数也增加了2.5倍。
(ii)增加变量runsyr(每年垒得分),fldperc(防备率)和sbasesyr(每年盗垒数)后的模型为:
runsyr是统计显著的,t=0.0174/0.0051≈3.41,表明在其他因素固定的情况下,垒得分增加一年,预期薪水将大幅度增长1.74%。每年盗垒数的值是负的,而防备率的t值仅为0.5。职业棒球大联盟的成员们大多数是优秀的守场员,实际上,最小的每年防备率是800。防备率相对较小的变异,使得它的影响难以估计。
(iii)根据t检验,bavg,fldperc和sbasesyr是个体不显著的。它们的联合显著性检验的F统计量为0.69,p值为0.56,因此,变量是联合不显著的。
6.本题要用到WAGE2.RAW中的数据。
(i)考虑一个标准的工资方程
log(wage)=β0+β1educ+β2exper+β3tenure+u
表述虚拟假设:多一年工作经历与在现在的岗位上多工作一年对log(wage)具有相同影响。
(ii)在5%的显著性水平上,相对于双侧对立假设,通过构造一个95%的置信区间来检验第(i)部分中的虚拟假设。你得到的结论是什么?
答:(i)虚拟假设为:H0:β2=β3。
(ii)令θ2=β2-β3,估计模型为:
log(wage)=β0+β1educ+θ2exper+β3(exper+tenure)+u
95%的置信区间为:[0.0020-1.96×0.0047,0.0020+1.96×0.0047],即[-0.0072,0.0112]。因为0位于置信区间内,因此不能拒绝原假设,即在5%的显著性水平上,不能拒绝β2=β3。
7.参考4.4节中所用的例子。你将使用数据集TWOYEAR.RAW。
(i)变量phsrank表示一个人的高中百分位等级。(数字越大越好。比如90意味着,你的排名比所在班级中90%的同学更高。)求出样本中phsrank的最小、最大和平均值。
(ii)在方程(4.26)中增加变量phsrank,并照常报告OLS估计值。phsrank在统计上显著吗?高中排名提高10个百分位点,能导致工资增加多少?
(iii)在方程(4.26)中增加变量phsrank显著改变了2年制和4年制大学教育回报的结论了吗?请解释。
(iv)数据集包含了一个被称为id的变量。你若在方程(4.17)或(4.26)中增加id,预计它在统计上不会显著,解释为什么?双侧检验的p值是多少?
答:(i)phsrank的最小值为0,最大值为99,平均值为56.16。
(ii)在方程中增加变量phsrank可得:
phsrank的t统计量为1.25,小于临界值,是统计不显著的。如果排名提高10个百分位点,log(wage)预期将增加0.003,这意味着薪水将会增长0.3%。
(iii)在方程中增加变量phsrank使得jc的t统计量的绝对值变得更小了,为1.33,但是其系数等于方程4.26中的系数。因此增加变量phsrank没有显著改变2年制和4年制大学教育回报的结论。大专学校的回报被估计得更少了,但该差异在标准显著水平下并不是统计显著的。
(iv)变量id只是工人的身份证号码,是被随机排列的。因此,在回归方程中,id与任何其他变量都是不相关的。因此若在方程中增加id,它在统计上不会显著。实际上,其p值约等于0.54。
8.数据集401KSUBS.RAW包含了净金融财富(nettfa)、被调查者年龄(age)、家庭年收入(inc)、家庭规模(fsize)方面的信息,以及参与美国个人的特定养老金计划方面的信息。财富和收入变量都以千美元为单位记录。对于这里的问题,只使用单身者数据(fsize=1)。
(i)数据集中有多少单身者?
(ii)利用OLS估计模型nettfa=β0+β1inc+β2age+u,并以常用格式报告结果。解释斜率系数。斜率估计值有何惊人之处吗?
(iii)第(ii)部分的回归截距有重要意义吗?请解释。
(iv)在1%的显著性水平上,针对H1:β2<1检验H0:β2=1,求出p值。你能拒绝H0吗?
(v)如果你做一个nettfa对inc的简单回归,inc的斜率估计值与第(ii)部分的估计值有很大不同吗?为什么?
答:(i)数据集中有2017单身者。
(ii)回归模型为:
inc的系数表明收入每增加一美元,净金融财富预计将增加80美分。age的系数表明,其他要素不变的情况下,年龄增长一岁,则净金融财富增加843美元。斜率估计值符合常理。
(iii)t统计量为:(0.843-1)/0.092≈-1.71,在单侧检验下,p值约为0.044,因此在5%的显著性水平下,可以拒绝虚拟假设。
(iv)简单回归中inc的斜率估计值是0.821,与原回顾中的0.799不同。事实证明,在单身的样本中,inc和age之间的相关系数仅为0.039,这解释了简单回归和多重回归结果不同的原因。
9.利用DISCRIM.RAW中的数据回答本题。(也可参见第3章计算机习题c3.8。)
(i)利用OLS估计模型log(psoda)=β0+β1prpblck+β2log(income)+β3prppov+u,以常用形式报告结果。在5%的显著性水平上,相对一个双侧对立假设,统计显著异于零吗?在1%的显著性水平上呢?
(ii)log(income)和prppov的相关系数是多少?每个变量都是统计显著的吗?报告双侧P值。
(iii)在第(i)部分的回归中增加变量log(hseval)。解释其系数并报告H0:βlog(hseval)=0的双侧p值。
(iv)在第(iii)部分的回归中,log(income)和prppov的个别统计显著性有何变化?这些变量联合显著吗?(计算一个p值。)你如何解释你的答案?
(v)给定前面的回归结果,在确定一个邮区的种族构成是否影响当地快餐价格时,你会报告哪一个结果才最为可靠?
答:(i)OLS估计模型为:
双侧检验的p值为0.018,在5%的置信水平上拒绝虚拟假设,但在1%的水平上无法拒绝虚拟假设。
(ii)log(income)和prppov的相关系数为-0.84,表明可能存在相当高程度的多重共线性。每一个系数都是统计显著的,的t统计量为5.1,而的t统计量为2.86,双侧检验的p值为0.004。
(iii)增加变量log(hseval)后,OLS回归结果为:
log(hseval)的系数表示弹性,意味着房屋价值每增加1%,在其他变量不变的情况下,预计价格增长0.12%。双侧检验的p值的三位小数点都为0。
(iv)增加变量log(hseval)后使得log(income)和prppov的个别统计不显著,即使在置信水平为15%时,log(income)和prppov系数的t统计量都小于临界值。
然而,在联合显著检验中,在5%的置信水平下,分子自由度为2,分母自由度为396,F统计量为3.52,p值等于0.030,因此所有的控制变量是高度相关的,因此部分变量个体上统计不显著就是符合常理的。
(v)因为(iii)中的回归包含的最多的控制变量,log(hseval)个体上是统计显著的,log(income)和prppov是联合显著的。(iii)看起来是最可靠的。因此,一个合理的估计是:在其他因素固定的情况下,黑人的比例增加0.1,psoda估计增加1%。
10.利用ELEM94_95.RAW中的数据回答本题。所得到的结论可以与表4.1中的结论进行对比。因变量lavgsal表示教师平均薪水的对数,bs表示平均福利与平均薪水的比率(以学校为单位)。
(i)将lavgsal对bs进行简单回归。斜率估计值在统计上显著异于0吗?它在统计上显著地异于-1吗?
(ii)在第(i)部分的回归中增加变量lenrol和lstaff。bs的系数有何变化?这种情形与表4.1中的情形相比如何?
(iii)第(ii)部分中bs系数的标准误为何比第(i)部分中的标准误更小?(提示:当增加变量lenrol和lstaff后,对误差方差和多重共线性会造成什么样的影响?)
(iv)lstaff的系数为何为负?它的绝对值算大吗?
(v)在回归中再添加变量lunch。保持其他条件不变,教师会因教育那些家庭条件不好的学生而得到补偿吗?请解释你的结论。
(vi)总之,你利用ELEM94_95.RAW得到的结论,与表4.1在形式上一致吗?
答:(i)使用1848个观测值,βbs的样本回归估计值为-0.795。95%的置信区间为-1.088到-0.502,这包括了-1。因此在5%的置信水平上,不能拒绝虚拟假设H0:βbs=-1 。它在统计上显著地异于0,不显著异于-1。
(ii)在模型中增加变量lenrol和lstaff,bs的系数变为-0.605,统计显著地异于1,95%的置信区间为[-0.818,-0.392]。这种情形与表4.1中的情形很相似,简单回归估计的系数为-0.825,多重回归的系数为-0.605。
(iii)简单回归估计的标准误为0.150,多重回归估计的标准误为0.109。增加的其他解释变量对标准误的作用方向是相反的。在本题中,bs和两个增加的变量lenrol和lstaff由于多重共线性的原因而增加标准误。而同时,lenrol和lstaff包含在回归方程中减小了系数的误差方差从而减小了标准误。事实上,它们属于简单回归的误差项的组成部分。在这个案例中,多重共线性相对于误差方差的减少是温和的,因此标准误从简单回归中的0.231下降到多重回归中的0.168,或者也可以从判定系数的角度去观察误差方差的变动。事先无法比较两种效应中哪种效应起主导作用,但是可以在进行两种回归后对误差方差进行比较。
(iv)lstaff变量表示平均每千名学生的教工数的对数。当教工数增加,平均每名学生的教工数将会增加。将此与更小的班级规模联系起来,对教师而言这是令人满意的情形。因为其他条件不变的情况下,教师愿意少支取工资,从而减小班级的规模。弹性为-0.714,表示教工规模增加10%,则工资减少-7.14%。
(v)在回归中再添加变量lunch,其系数为-0.00076,t值为-4.69,在其他条件不变的情况下,雇用贫困率与低工资是相关的。在这个数据集中,lunch的平均值为36.3,标准误差为25.4。因此,lunch的标准误差增加与工资变动是相关的,即导致工资减少-0.0076×25.4≈-0.019,约2%。本题没有足够的证据说明教师会因教育那些家庭条件不好的学生而得到补偿。
(vi)与表4.1在形式上一致。其数值大小也是合理地接近的。从绝对值角度而言,简单回归估计是最大的,当其他解释变量加入模型中后,回归结果将会变小。最终两个回归不是相同的,因为在表4.1中不能控制lunch,而毕业率与辍学率与小学学生无关。