家庭行为对子女教育的影响研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.3 数据与研究方法

3.3.1 数据

本章数据来自2008年中国综合社会调查(Chinese General Social Survey,CGSS2008)。该调查采用分层的四阶段不等概率抽样方法:区/县、街道/乡镇、居委会/村、家庭户。样本包括全国除宁夏、青海、西藏以外的其他地区的共计6000名18岁以上的城乡居民。(5)本书将样本限定在最高教育程度已经完成、至少有一个同胞、具备父母受教育程度和职业等家庭背景信息的个人,实际的有效样本量为5271人。

3.3.2 变量

本书选用被访者的受教育年限度量个人的教育获得情况。

参考已有研究(Butcher和Case, 1994;Hauser和Kuo, 1998;Kaestner, 1997),特别是和李宏彬、张俊森(2008)的研究进行对比,我们在一系列回归模型中分别引入如下度量同胞性别结构的变量:表示被访者是否有兄弟的虚拟变量(有兄弟=1)、表示被访者是否有姐妹的虚拟变量(有姐妹=1)、同胞中女孩的比例(含本人)。

我们还控制了被访者的同胞数及排行。同胞数取值为0~12,由于仅有0.52%的被访者的同胞数超过8个,为避免少数极端值对估计结果的影响,我们参考吴愈晓(2012)的做法,将同胞数超过8个的统一赋值为8。(6)排行的取值范围为1~12,但是99.03%的被访者在同胞中的排行不超过7,因此将排行超过7的统一赋值为7。(7)

性别、民族、户籍状态及父母的政治和社会经济地位也是重要的影响中国个人教育获得的因素(Hannum, 2002;Hannum和Xie, 1994;Lu和Treiman, 2008;Wu和Treiman, 2004),因此我们控制了被访者的年龄、性别(女性=1)、民族(汉族=1)、上学时的户籍状态、父母的受教育程度(父亲和母亲当中较高的受教育年限)、被访者14岁时父亲职业的国际社会经济地位指数(ISEI)及14岁时父亲是否是中共党员(中共党员=1)等变量。由于CGSS2008并没有询问被访者14岁时的家庭收入,所以我们用父母受教育程度及14岁时父亲职业的ISEI得分作为家庭社会经济地位的代理变量。

需要说明的是,户籍状态和父亲职业的国际社会经济地位指数两个变量的构造。由于实际上很多人到7岁甚至更晚才开始读小学(Lu和Treiman, 2008),而最初求学阶段的户籍状态直接影响之后一系列教育阶段的机会和质量,所以我们参考叶华和吴晓刚(2011)的做法,设置了被访者在7岁或之前是否拥有城镇户籍这一虚拟变量(被访者7岁或之前拥有城镇户口=1)。

CGSS2008根据1988年国际标准职业分类代码,对被访者14岁时父亲的职业进行了编码。我们根据甘泽布姆等(Ganzeboom等,1992)的方法,将其转换为父亲的国际职业社会经济地位指数。由于很多被访者没有汇报其14岁时父亲的职业状况,而这部分被访者的平均受教育程度较低(缺失值当中76.07%的受教育年限不超过9年),因此我们对缺失值进行了信息填补。具体做法是:先用被访者14岁时母亲的ISEI得分填补(吴愈晓,2012),如母亲信息也缺失,再根据被访者7岁或之前是否拥有城镇户口及父亲是否是中共党员将样本分成4类,分别用这4类群体的父亲的ISEI均值进行填补。然后,我们仿照陆瑶和唐启明(Lu和Treiman, 2008)的做法,设置了一个表示被访者14岁时父亲ISEI得分缺失的虚拟变量(父亲ISEI信息缺失=1)。

主要变量的描述性统计见表3.1。

表3.1 主要变量的描述性统计

注:数据根据抽样概率进行加权。

3.3.3 方法

我们利用OLS方法估计同胞性别结构对教育获得的影响,数据按照抽样概率进行加权。由于我们使用的数据在每个初级抽样单位(PSU)——区/县——抽取了60个家庭户的60个被访者,所以数据在区/县层面上存在聚类,这会导致OLS回归估计系数的标准误产生偏误。为此,我们对标准误进行了区/县层面的聚类调整。