
第五节 数据和方法
一 数据来源
在中国性别失衡演变过程和区域特征研究中,数据来源包括以下内容。①1950~1982年总和生育率数据来自Basic Data on Fertility in the Provinces in China;1983~2000年总和生育率数据来自Fertility Estimates for Provinces of China;2001~2008年总和生育率数据来自《中国人口统计年鉴》;2009年总和生育率数据来自《中国统计年鉴2010》。②1950~1959年出生人口性别比数据来自《全国生育节育抽样调查分析数据卷(三)生育 节育》;1960~1979年出生人口性别比数据来自顾宝昌、徐毅(1994)的研究;1980~1987年出生人口性别比数据来自《中国人口统计年鉴》;1988年出生人口性别比数据来自《全国生育节育抽样调查分析数据卷(三)生育 节育》;1989年出生人口性别比数据来自《中国1990年人口普查资料》;1990~1999年出生人口性别比数据来自《中国人口统计年鉴》;2000年出生人口性别比数据来自《中国2000年人口普查资料》(长表);2005年出生人口性别比数据来自中国2005年1%人口抽样调查资料;2006~2009年出生人口性别比数据来自《中华人民共和国国民经济和社会发展统计公报》。
区域类型分析涉及全国各省份7次普查数据,主要来源于1973年、1982年、1987年、1990年、1995年、2000年、2005年全国人口普查和1%人口抽样调查,其中出生人口性别比数据来自普查资料的长表,总和生育率根据普查资料计算得出。其中海南省成立于1988年,仅有1990年之后的人口普查数据。
性别失衡演变机制研究旨在阐释我国自出生人口性别比开始明显偏高以来的演变过程及内在机制,其时间跨越1970年代末和2010年,有超过30年的历史。由于实证部分使用的数据受到样本量的限制,仅能覆盖1990年、2000年和2010年3个普查年份,即便是模式总结中使用的省级数据也只覆盖1982~2010年的7个普查年份,无法满足性别失衡演变机制研究的需求。因此,本研究主要基于全国范围的统计数据和文献资料,进行定量分析和理论阐释。
本研究数据共分为三期。第一期数据由1990年普查数据汇总而成。其原始数据为第四次普查1%村抽样数据,按照市级区域编码汇总而成。第二期数据由2000年普查数据汇总而成。其原始数据为第五次全国人口普查数据的抽样数据,采用简单随机抽样的方法抽取,抽样比为0.95‰(样本人口1180111人,实际登记人口1242612226人),未考虑1.81%的漏登率。第三期数据由2010年普查数据汇总而成。其原始数据来源于第六次人口普查数据,其原始数据为2010年人口普查长表中抽取的1%样本库,即第三期数据由第六次人口普查全部数据的1‰样本汇总而成。
此外,人均GDP数据来源于统计资料,其中2010年和2000年数据来源于《中国区域经济统计年鉴》,1990年数据则根据各省份1990~2000年的经济增长率和人口增长率,由2000年数据回推生成,即假设1990~2000年各省份的所有市的人均GDP增长速度相同。政策生育率数据来自中国人民大学杨菊华教授的研究结果。
本研究采用了多元来源的数据,包括国家统计数据、国家人口普查数据和人口抽样调查数据等,不同的数据来源可能存在数据偏差及不一致等问题。但由于本研究关注区域的不同领域发展状况与人口性别失衡之间的关系,故在多重数据源可以一致反映区域在全国范围内所处的发展水平的前提下,其不会影响到本研究的结果和结论。
二 研究方法
本研究将公共管理学、社会学与统计学研究相结合,在时间和空间的视角下构建性别失衡演变机制的分析框架,以理论分析、二手文献和统计资料分析为前期基础,以统计分析方法验证假设。在演变过程的分析和总结中,通过7次普查数据对全国各省份的性别失衡演变过程进行跟踪分析,因此采用分析和归纳总结的研究方法;演变机制研究中,通过3次普查数据对全国各市的宏观环境和性别失衡演变进行跟踪,因此采用两层线性回归模型对性别失衡演变机制进行分析。