第四节 计量分析结果
一 计量模型
根据上文的理论分析,本章的基本计量模型设定如下:
式(3.3)至式(3.6)中,lncost是农民工在打工所在地生活成本的自然对数;lnwage是农民工月平均工资的自然对数;lnpop是农民工工作所在城市人口规模的自然对数。房价是城市聚集不经济的最主要因素(Moulton,1995),但是,我们没有所有城市房价的准确数据,只有根据《中国区域统计年鉴(2012)》地级以上城市住宅销售额和销售面积所得的地级以上城市的平均房价,其他城市的房价数据缺失。因此,我们采取了房价虚拟变量的办法来表征不同城市的房价,具体做法是:把平均房价在每平方米1万元以上的城市用虚拟变量ha1表示,把平均房价在每平方米5000—1万元的城市用虚拟变量ha2表示,其他城市为对照组。其中,房价在1万元以上的城市有北京、上海、广州、深圳以及杭州、温州6个城市。X1是一组控制变量,主要包括农民工及其所在城市的特征变量,下文将予以详细介绍。对于式(3.3),我们主要采用一元线性回归关注房价与生活成本支出之间的统计关系。对于式(3.4)和式(3.5),我们重点关注房价或者城市规模前面的系数,如果不显著,就说明城市规模、城市房价与农民工的生活成本无关,大城市高房价等聚集不经济的传导机制失灵。另外,考虑到农民工个人能力的潜在能力也有可能影响到他个人的消费支出,在式(3.6)中,我们用lnwage代理农民工个人的潜在能力。
式(3.7)和式(3.8)中,在关于农民工工资的文献中,一些研究采用月工资,另一些研究采用小时工资,还有一些研究两者都采用。本章使用的样本中,一部分是自雇型就业者,他们的工作小时数和其他职业农民工很难比较,因此,就本章的数据而言,采用月平均工资更为合理。X2是一组控制变量,主要包括农民工及其所在城市的特征变量,下文将予以详细介绍。如果式(3.4)、式(3.5)和式(3.6)中的房价或者城市规模前面的系数不显著,表明聚集不经济的传导机制失灵,那么式(3.7)、式(3.8)中的房价或者城市规模前面的系数也会不显著,即农民工的工资与城市规模无关。
根据卢卡斯(2004)、鲍姆-斯诺和帕万(Baum-Snow and Pavan,2012)等现有文献,随着城市规模的扩大,学习效应、身份效应及公共服务效应会降低农民工的工资要求,这些效应可归因于城市聚集经济对农民工工资的影响。我们采用式(3.9)和式(3.10)进一步研究导致农民工工资与城市规模无关的原因是否是聚集经济和聚集不经济对农民工工资的影响相互抵消了。城市规模的扩大既可以提高房价等聚集不经济因素,也可能会影响学习效应、身份效应和公共服务效应等可能与工资有关的聚集经济因素,因此,房价等聚集不经济和城市聚集经济都与城市规模有关。借鉴德斯梅特和罗西-汉斯伯格(Desmet and Rossi-Hansberg,2013)对具有共同影响因素的解释变量的处理方法,在式(3.8)中,我们将房价ha1、ha2和城市规模同时放入了模型中。这里,房价变量ha1和ha2是聚集不经济的代理变量,在房价等聚集不经济已经用ha1和ha2加以控制的条件下,式(3.7)模型中的城市规模lnpop变量将只反映因城市规模变化而引起的聚集经济变化,其系数反映了聚集经济因素对工人工资的影响。在式(3.7)及式(3.8)模型中,我们将重点关注房价、城市规模对农民工工资是否有显著的影响。
在工资计量模型的估计过程中,考虑到农民工进入城市工作时,可能存在的选择偏差,特别是可能存在逆向选择,也即大城市的农民工的能力可能比小城市农民工能力弱,并且这种能力由一些不可观察的特征引起,致使上述模型的回归结果可能存在低估,而出现大城市农民工的名义工资同中小城市农民工的名义工资没有显著的差异。为了克服该问题,运用马达拉(Maddala,1983)的处理效应模型来估计农民工名义工资,是否受其工作所在城市规模或生活成本的影响。
将样本分成两组,当农民工工作所在城市规模大于分界点时,dum_c*=1,否则为0。模型(3.9)为标准的工资计量模型,选择偏差问题使OLS估计得出的dum_c系数γ1为非一致估计值,此时采用处理效应模型的两阶段估计方法。第一阶段估计选择计量模型(3.10),得到估计系数,运用公式计算出个体的风险比h。第二阶段,将个体的风险比h代入模型(3.9),构建扩展的收入模型(3.11),系数 γ1为一致性估计值,其中,风险比h的估计系数为λ,其可以估计内生性选择偏差存在与否。
式中,X=X1+X2,X1和X2为两组大体相同的控制变量,包括如下个体特征变量和城市特征变量:
age表示农民工的年龄,单位为年,age2是年龄的平方。一些研究发现,年龄和年龄的平方对农民工的工资有显著影响(姚俊,2010)。本章样本农民工年龄区间为15—68岁,随着年龄的增大,农民工的体力和精力可能存在一个倒“U”形曲线,但是,人生经验会随年龄增大而不断上升,综合而言,age和age2对工资的影响,前者应该为正,后者应该为负。time表示农民工从事其报告职业的时间,单位是年,time一定程度上反映了农民工从事其报告职业的工作技能,从业时间对工资的影响与年龄相类似,可能存在非线性关系,比如倒“U”形(宁光杰,2014),因此,本章也加入了从业时间的平方项time2。年龄和从业时间对农民工生活成本的影响也可能是非线性的。dhc表示是否包住。在我们的调查中,部分农民工由于所在企业或者工厂包住,因此,这可能会影响到他的生活成本支出或者工资收入,我们使用dhc加以控制,dhc为1表示包住,即住房支出为零,dhc为0表示不包住。
gender是农民工的性别虚拟变量,男性等于1。party是虚拟变量,如果农民工是中共党员party等于1,在农村通常比较有能力的人才能当上党员,因此,本章希望party可以在某种程度上控制农民工的能力。health表示健康状况的虚拟变量,农民工身体状况为健康则为1,否则为0。married为婚姻状况虚拟变量,如果农民工已经结婚,该变量定义为1,否则为0。配偶是否在身边,对农民工外出打工的感情成本有重要影响,用虚拟变量together来控制其对农民工工资影响,together为1表示农民工与配偶一起在外打工,否则为0。这些变量对农民工的工资和生活成本都可能有一定影响。
prov表示农民工工作所在省份的虚拟变量,在外省份工作为1,否则为0。county是农民工工作所在县的虚拟变量,如果在家乡所在省份内但在家乡所在县外则为1,在本县内工作则为0,上述两个虚拟变量的对照组为在本省份本县工作的农民工。远离家乡到外省份或外县工作,需要农民工具有更强的人际沟通能力、冒险精神和进取心,因此,prov和county在某种程度上也反映了农民工的个人能力。同时,到外省份和外县工作回老家和亲人团聚的机会减少,这意味着更大的情感成本和回老家探亲的成本。这两个变量对工资和生活成本都可能有影响。
edu代表一组反映农民工文化程度的5个虚拟变量,分别控制初中文化、高中文化、中专文化、大专文化和大学以上文化。voc代表一组反映农民工职业的10个虚拟变量,分别控制除工业企业普通工人以外的其他10种职业。文化程度和职业对工资与生活成本也可能有一定的影响。
lnrain和lntemperature分别表示农民工工作所在城市的年降雨量及年平均气温的自然对数。一个城市的降雨量和气温体现了其自然环境,影响着居住的舒适性,农民工在生活和工作中可能存在权衡,比如,为了在一个居住环境适宜的地方工作,而接受更低的工资,由此可见,城市的自然环境变量对农民工工作地点选择和工资都可能有影响,控制该类变量有利于减弱内生性的问题。但我们不认为,这两个变量会显著影响生活成本。
式(3.9)中,Y包括X的个体特征变量之外,还有三个可能影响农民工进行工作地点选择的变量:①农民工所在家庭的在家务农劳动力的平均农业收入的自然对数,用以表示外出打工的机会成本;②农民工所在村庄与最近县城直线距离的自然对数,该变量可以用来度量农民工家乡与外界信息接触程度;③在我们调查样本中,农民工所在县外出打工者在占所有成年劳动力的比例,反映农民工在外地工作所具有的社会网络。
二 对基本模型的回归结果及稳健性检验
(一) 对农民工生活成本的回归结果
表3-2给出了对式(3.3)至式(3.6)表示的基本计量模型进行回归的结果。由表3-2回归1可知,在不加控制变量的情况下,房价与生活成本是具有统计显著性的,这与散点图的描述是一致的。回归2和回归3中,房价ha1和ha2以及城市规模lnpop对农民工的生活成本均没有显著的影响。考虑到在本省份和本县打工者的生活成本可能比较低,给回归结果带来不良影响,我们仅采用省份外打工的农民工样本,重复了回归2和回归3的操作,结果发现,城市房价和城市规模对农民工生活成本仍然没有显著影响(表3-2仅报告了用房价回归的结果)。另外,考虑到一个人的个人潜能也可能影响到他的生活支出,我们在回归模型中加入月工资对数加以控制,城市房价和城市规模对农民工生活成本支出均没有显著性影响。此外,考虑到我们的样本数据中有77位属于自雇型就业,这可能会影响到回归结果,因此,将此样本剔除之后发现,我们的结果仍旧成立。这一实证结果说明,城市房价等聚集不经济没有影响农民工的生活成本,农民工的生活成本与城市规模无关,在中国聚集不经济的传导机制发生了严重的失灵。
表3-2 对农民工生活成本的回归结果
表3-2 对农民工生活成本的回归结果续表
注:(1)括号内为t值;(2)*、**和***分别表示在10%、5%和1%的显著性水平下显著;(3)回归中都包含有固定项,为了节省篇幅,表格中没有报告其结果。
表3-2所有回归中的控制变量与理论预测也基本一致。在外省份打工的农民工生活成本和工资收入相对在省份内打工者都要高一些。年龄和从业时间对生活成本呈倒“U”形曲线变化,年龄对名义工资呈倒“U”形曲线变化。城市降雨量和温度对农民工的生活成本都没有显著影响,这可能是因为,农民工基本上已经适应在不同环境情况下的工作环境,长期的外出务工使他们能够更加自如地应对不同的自然环境。和配偶在一起打工者生活成本没有显著的变化,可能由于农民工的生活已经足够节俭,基本的生活需求无法缩减。已婚者生活成本要低一些,这是因为已婚者会考虑养家糊口的需要变得更加节省。
(二) 对农民工名义工资的回归结果
根据表3-3回归1和回归2可知,房价以及城市规模对农民工的名义工资没有显著影响,这一结果是对表3-2对农民工生活成本归回结果的进一步印证,既然房价和城市规模没有影响农民工的生活成本,聚集不经济传导机制发生了失灵,那么城市规模就不会影响农民工的名义工资。
随着城市规模的扩大,学习效应、身份效应、公共服务效应等聚集经济因素是否对农民工的工资产生了负的影响?这种影响是否抵消或部分地抵消了房价等聚集不经济对农民工工资可能存在的正的影响?为了回答这两个问题,也为了进一步验证聚集不经济传导机制的失灵,我们分别在控制房价等聚集不经济的条件下,用人口密度和城市规模做聚集经济的代理变量进行了回归。如表3-3回归3到回归6所示,无论是采用全部样本,还是采用省份外打工者样本,城市规模lnpop与城市房价ha1和ha2均不显著,这说明所谓学习效应、身份效应、公共服务效应等聚集经济因素对农民工工资并没有显著影响。唯一例外的是,当我们使用省份外雇员样本时,房价位于一万元以上的城市对工资是有正向影响的,鉴于此类城市中存在的来自外省份的高技能农民工较多,我们仅使用工业企业工人样本进行回归,发现我们的结果依旧是显著的。[3]这一结果不仅表明中国的农民工是讲求实际,不图虚名的,而且也说明大城市的公共服务对农民工也没有影响。这与中国的现实是相符的,因为农民工基本被排除在大城市的公共服务之外。这些回归结果也进一步印证了农民工“城市打工挣钱、农村盖房消费”的行为模式,以及这种模式下大城市房价等聚集不经济传导机制的失灵。
(三) 稳健性检验
为了验证上述回归结果的可靠性,我们进行了多种稳健性检验。例如,在表3-2中回归2到回归7中以及表3-3中回归1至回归6中删除降雨量lnrain和温度lntemperature或仅使用年龄age及从业时间time的一次项,或仅采用制造业工人的样本,或者考虑到温州杭州的特殊性,把温州的农民工样本从ha1组中移入ha2组中(此时ha1组中仅包括北京、上海、广州、深圳四大城市的样本,而ha2组中多了温州杭州的农民工样本),所有这些回归的结果都是一致的。
表3-3 对农民工名义工资的回归结果
注:(1)括号内为t值;(2)*、**和***分别表示在10%、5%和1%的显著性水平下显著;(3)回归中所包含的控制变量与表3-2相一致,为了节省篇幅,表格中没有汇报其结果。
由于农民工中自雇型就业者往往有一定的投资,其收入中可能有一些资本收益。作为稳健性检验,以上所有回归重新采用雇员样本回归结果也是稳健的。
三 采用处理效应模型的回归结果
表3-4给出了采用处理效应模型的回归结果,其中,回归1的分界点是人口规模为1000万,λ估计值为负数且在的5%水平上显著,表明流入1000万以上巨型城市的农民工在能力上存在逆向选择,对式(3.8)所表示模型的OLS回归结果可能存在低估,通过处理效应模型处理后,城市规模虚拟变量dum_c1的系数估计值为0.215,表明大城市确实存在工资升水的可能,但是,人口超过1000万的城市绝大部分是外来人口,因此,我们使用省份外人口变量进行稳健性检验,回归结果发现,其工资不存在升水的可能。此外,分别以省份外样本、以人口规模300万或100万为分界点定义城市规模虚拟变量,回归结果如表3-4回归2到回归4所示,回归结果发现,当城市规模大于100万时,其名义工资要高出17.4%。
表3-4 采用处理效应对农民工工资的回归结果(被解释变量:lnwage)
注:(1)括号内为t值;(2)**和***分别表示在5%和1%的显著性水平下显著;(3)表中省略了工资模型控制变量(age、age2、time、time2、gender、party、health、married、together、prov、county、lnrain和lntemperature)和选择模型估计结果。
为了进一步明确上述处理效应模型中城市规模对工资没有显著影响,是因为房价等聚集不经济传导机制失灵,还是因为大城市的学习效应、公共服务效应等聚集经济对工资的负影响抵消了房价等聚集不经济的正影响。我们以房价ha1和ha2作为聚集不经济的代理变量加入处理效应模型,如前所述,在房价等聚集不经济得到控制的条件下,城市规模可以只作为聚集经济的代理变量。回归结果如表3-4中回归5至回归7所示,采用全部样本时发现人口规模超过1000万时,房价对于工资的提升是显著的,但是,我们采用省份外打工者样本,以及采用不同的城市规模为分界点,城市规模虚拟变量ha1和城市房价虚拟变量ha2均不显著,这说明,在考虑选择偏差问题和大城市可能存在的学习效应、公共服务效应及身份效应条件下,房价等聚集不经济对工资仍然没有显著的影响。总之,处理效应模型也支持本章关于在中国,房价等聚集不经济传导机制失灵的结论。