1.2 课后习题详解
一、习题
1.假设你所在的大学要求你“找出每周学习小时数(study)和每周工作小时数(work)之间的关系”。把这个问题说成“推断study是否‘导致’work或work是否‘导致’study”的问题是否讲得通?请解释。
答:把这个问题描述为因果关系是无意义的。经济学家会假设学生理性的选择学习时间和工作时间(以及其他活动,如上课、娱乐和休息)的组合,使得他们在每周总共168小时的时间约束下获得最大的效用。可以使用统计方法如回归分析方法去衡量学习和工作时间之间的关系,但是不能判断哪一个变量“导致”另一个变量。他们同属于学生选择的变量之一。
2.假设让你进行一项研究,以确定较小的班级规模是否会提高四年级学生的成绩。
(i)如果你能设定你想做的任何实验,你想做些什么?请具体说明。
(ii)更现实地,假设你能搜集到某个州几千名四年级学生的观测数据。你能得到他们四年级班级规模和四年级末的标准化考试分数。你为什么预计班级规模与考试成绩存在负相关关系?
(iii)负相关关系一定意味着较小的班级规模会导致更好的成绩吗?请解释。
答:(i)假定能够随机的分配学生们去不同规模的班级,也就是说,在不考虑学生诸如能力和家庭背景等特征的前提下,每个学生被随机的分配到不同的班级。因此可以看到班级规模(在伦理考量和资源约束条件下的主体)的显著差异。
(ii)负相关关系意味着更大的班级规模与更差的考试成绩是有直接联系的,因此可以发现班级规模越大,导致考试成绩越差。
通过数据可知,两者之间的负相关关系还有其他的原因。例如,富裕家庭的孩子在学校可能更多的加入小班,而且他们的成绩优于平均水平。
另外一个可能性是:学校的原则是将成绩较好的学生分配到小班。或者部分父母可能坚持让自己的孩子进入更小的班级,而同样这些父母也更多的参与子女的教育。
(iii)鉴于潜在的其他混杂因素(如ii所列举),负相关关系并不一定意味着较小的班级规模会导致更好的成绩。控制混杂因素的方法是必要的,而这正是多重回归分析的主题。
3.工作培训项目的理由之一是能提高工人的生产力。假设要求你评估更多的工作培训是否使工人更有生产力。不过,你没有工人的个人数据,而是有俄亥俄州制造企业的数据。具体而言,对每个企业,你都有人均工作培训小时数(training)和单位工时生产的合格产品数(out put)方面的信息。
(i)仔细陈述这个政策问题背后其他情况不变的思维试验。
(ii)一个企业培训其员工的决策看起来有可能独立于工人特征吗?工人可观测与不可观测的特征各有哪些?
(iii)除工人特征之外,再列出一个影响工人生产力的因素。
(iv)你若发现training和out put之间有正相关关系,你令人信服地证明了工作培训能提高工人的生产力了吗?请解释。
答:(i)其他情况不变的思维在本题可以假设两个厂商A、B,厂商A除了对每个工人提供比厂商B更多的职业培训外,其他条件与厂商B都是相同的,由此可以得出厂商A的产出与厂商B的产出的不同。
(ii)一个企业培训其员工的决策看起来依赖于工人特征。
可观测的特征包括:工作年限、学历、专业工作经验,甚至包括年龄、性别和种族。
不可观测的特征包括:企业可能根据能力高低来为员工提供培训,但是“能力”是难以量化的,经理只能根据不同员工能力相关的方面来作出判断。另外,不同类型的员工可能被更高的平均培训时间所吸引,这对雇主而言是不明显的。
(iii)工人可获得的资本和技术的数量也影响产出。如果两个企业采用不同的资本或技术,即使他们拥有相同类型的员工,他们的产出也将会不同。经理的质量同样也是影响产出的因素之一。
(iv)并没有,除非培训量是随机分配的。即使培训不能促进工人的生产率提高,ii和iii所列的因素也能导致培训和产出之间呈现正相关关系。
二、计算机习题
1.本题使用WAGE1.RAW中的数据。
(i)求出样本中的平均受教育程度。最低和最高受教育年数是多少?
(ii)求出样本中的平均小时工资。它看起来是高是低?
(iii)工资数据用1976年的美元报告。利用(2004年或以后的)《总统经济报告》,求出并报告1976年和2003年的消费者价格指数(CPI)。
(iv)利用第(iii)部分中的CPI值,求以2003年美元度量的平均小时工资。现在,平均小时工资看起来合理了吗?
(v)样本中有多少女人和男人?
答:(i)样本中的平均受教育程度为12.6年。最低受教育年数为0,最高受教育年限为18年。
(ii)平均小时工资为5.9美元,在2008年它看起来是低的。
(iii)1976年的CPI为56.9,而2003年的CPI为184。
(iv)将1976年美元转换成2003年美元,应该使用CPI的比率,即184/56.9≈3.23。此以2003年美元度量的平均小时工资为:5.9×3.23≈19.06(美元)。这是比较合理的工资水平。
(v)样本中有252个女人,274个男人。
2.回答本题需使用BWGHT.RAW中的数据。
(i)样本中有多少妇女,又有多少人报告在怀孕期间抽烟?
(ii)平均每天抽烟数量是多少?平均数作为这个案例中“典型”妇女的度量指标好吗?请解释。
(iii)怀孕期间抽烟的妇女中,平均每天抽烟数量是多少?与第(ii)部分中的答案有何区别,为什么?
(iv)求出样本中fatheduc的平均值。为何只用1192个观测计算这个平均值?
(v)报告平均家庭收入及其标准误,以美元为单位。
答:(i)样本中有1388个妇女。有218个妇女报告在怀孕期间抽烟。
(ii)平均每天抽烟数量为2.09。但是样本包含了1176个不吸烟的妇女。报告只是掩盖了85%的妇女不吸烟的事实。在怀孕期间不吸烟的女人作为“典型”妇女的度量指标将更有意义,此时吸烟的平均数量为0。
(iii)怀孕期间抽烟的妇女中,平均每天抽烟数量为13.7,这高于将所有的妇女作为样本总值得出的平均值。
(iv)fatheduc的平均值为13.2。因为有196个fatheduc的观测数据丢失了,而且这些数据在计算平均值是必要的。
(v)平均家庭收入为29027美元,标准误为18739美元。
3.MEAPO1.RAW中的数据是2001年密歇根州的数据。利用这些数据回答如下问题。
(i)求出math4的最大值和最小值。这个范围合理吗?请解释。
(ii)有多少学校在数学测试中有100%的通过率?占整个样本的百分比是多少?
(iii)有多少学校的数学通过率刚好是50%?
(iv)比较数学和阅读的平均通过率。哪个测试更难通过?
(v)求出math4和read4之间的相关系数。你得到的结论是什么?
(vi)变量exppp是平均每个学生的支出。求出exppp的平均值和标准差。你认为学生均支出存在大幅差异吗?
(vii)假设学校A平均每个学生支出6000美元,学校B平均每个学生支出5500美元。学校A的支出超过学校B的支出百分之多少?与根据自然对数之差近似的百分比差异100×[log(6000)-log(5500)]进行比较。(参见附录A中的A.4节。)
答:(i)math4的最大值为100,最小值为0。
(ii)有38个学校在数学测试中有100%的通过率,所占比为:38/1823≈2.1%。
(iii)有17个学校在数学测试中有50%的通过率。
(iv)math4的通过率是71.9,read4的通过率是60.1。在2001年,read4更难通过。
(v)math4和read4之间的相关系数为0.843,说明两者之间具有高度相关的线性关系。也就是说,一所在一门课程中具有很高通过率的学校在其他课程上具有很高通过率的趋势是很强的。
(vi)变量exppp的平均值是5194.87美元。标准差是1091.89美元,这表示学生均教育支出是存在较大的差别的。
(vii)学校A超出学校B的支出百分比是:(6000-5500)/5500≈9.1%。[log(6000)-log(5500)]≈3.8%。
4.JTRAIN2.RAW中的数据,来自1976~1977年对低收入男性进行的一项工作培训试验;参见Lalonde(1986)。
(i)利用指标变量train来确定得到工作培训的男性比例。
(ii)变量re78是1978年得到的工资,以1982年的千美元度量。针对得到工作培训的男性样本和未得到工作培训的男性样本,分别计算re78的平均值。二者在经济上的差别大吗?
(iii)变量unem78是表示一个男人在1978年是否失业的指标变量。得到工作培训者的失业比例是多少?没有得到工作培训者呢?评论二者之间的差异。
(iv)根据第(ii)部分和第(iii)部分,工作培训项目看来有效吗?如何使我们的结论更有说服力?
答:(i)得到工作培训的男性比例为:185/445≈41.6%。
(ii)针对得到工作培训的男性样本,re78的平均值为6350美元;针对未得到工作培训的男性样本,re78的平均值为4550美元。两者之间的差异为1800美元,这是非常大的差异。平均而言,接受工作培训的男性的收入比未接受工作培训的男性多40%。
(iii)得到工作培训者1978年的失业比例为24.3%;未得到工作培训者1978年的失业比例为35.4%,两者之间的差距仍然很大。
(iv)从失业率和收入的差距可以看出,工作培训项目看来有效。为了使结论更具有说服力,应该建立统计意义上的显著模型。