1.3 数据采集与质量控制
1.3.1 CAPI系统介绍
CHFS项目汲取了国际上通用的计算机辅助面访系统(Computer-assisted Personal Interviewing,简称CAPI)框架和设计理念,研发了具有自主知识产权的面访系统和配套管理平台。通过该系统,能够全面实现以计算机为载体的电子化入户访问。通过这种方式,能够有效减少人为因素所造成的非抽样误差,例如对问题的值域进行预设,减少人为数据录入错误、减少逻辑跳转错误等,并能较好地满足数据的保密性和实时性的要求,从而显著提高调查数据的质量。
1.3.2 访员选拔和培训
CHFS的访员大多为西南财经大学优秀的本科生和研究生,由博士生担任访问督导。由于所有访员均受过良好的经济、金融知识教育,因此能够深入地理解问题含义并更好地向受访者传达和解释。在正式入户访问前,项目组对选拔出的访员进行了系统培训。培训内容包括:
第一,访问技巧。在访问前如何确定合格的受访对象,如何获得受访者的信任和配合;在访问时如何向受访者准确、无偏地传达问题的含义,并记录访问中遇到的特殊问题;在访问后如何将数据传回并遵守保密性准则。
第二,问卷内容。以小班授课的方式对问卷内容进行熟悉和理解;通过幻灯片、视频等多媒体手段更生动地进行讲解;以课堂模式模拟访问加深印象并发现不足。
第三,CAPI电子问卷系统和访问管理系统。在课堂上向访员发放上网本。上网本已经安装CAPI电子问卷系统和中心自主研发的访问管理系统。通过实际操作,引导访员熟悉操作系统,尤其是访问过程中备注信息的使用和各种快捷操作。
第四,实地演练。课堂培训结束后,组织访员进行实地演练,即小范围地入户访问,以考核访员对访问技巧和问卷内容的掌握情况,查漏补缺。
CHFS的绘图员培训经历5轮,培训绘图员232人次,人均培训学时为42小时;访员培训分为两轮,培训访员1400余次,人均培训80小时。在培训完成后,CHFS还对访员进行了严格的考核评分,对考核表现不理想的访员进行再培训或者取消其访问资格。而对于作为访问管理环节具体实践者的博士生督导,中心工作人员对其进行了更为严格的培训。每个合格的督导不仅需要参加完整的访员培训,而且必须接受额外8天的督导培训,要求其熟练掌握督导管理系统、样本分配系统和CAPI问题系统。
上述严格的培训和考核保证了CHFS的访问督导质量和访员质量,为高质量调查访问数据的收集奠定了坚实基础。
1.3.3 社区联系
入户访问的一大困难是取得受访者的信任和理解,因此通过熟悉当地情况的社区或村委工作人员带领,向受访者说明项目的背景和目的,在受访者合作程度不高时进行解释和说服,能够在很大程度上降低项目的拒访率。
1.3.4 质量控制
数据质量是调查的生命,质量的保证不仅要求有合理的样本设计和可靠的调查问卷,还必须对数据收集过程本身,也即调查实施制定一套严格的质量标准,并系统的监测每次调查过程,以保证调查能遵循规定的程序达到要求的质量标准。2015年,中国家庭金融调查与研究中心基于使用计算机辅助调查(CAI)模式采集数据的基础上,进行了全新维度的数据质量监控,通过将计算机辅助调查系统与质量监控系统相链接,对实时回传的访问数据及访问相关的并行数据(包括调查录音、键盘操作记录、调查时长、图片等)进行实时监控与分析,实现全方位监测每次调查过程、有效核查每个样本数据、准确清理所出现的异常数值,保证质量监控与实地访问工作相对同步,及时发现并指导纠正访员在调查中出现的各种错漏。
考虑执行方式及受访对象特征,一般在项目的实时核查阶段采用全方位、多途径的数据质量监控手段,对调查中访问失败及访问成功的样本进行全面、严格的审核,包括:换样核查、电话核查、录音核查、数据核查、GPS核查、图片核查、重点核查(利用各项核查中异常样本交集与敏感数据缺失情况重点监测)等,全面排查并实时反馈访员的行为与数据的质量,保证每个调查样本的数据质量。但也可以根据项目各自具有的特点,对调查过程中特定的环节进行核查,或针对性的对其中某些维度进行审核。
(1)失败样本
为保证2015年中国家庭金融调查样本的代表性及数据的科学性,中心在前期准备阶段进行了科学抽样(详见抽样),并要求调查员需尽一切努力访问到抽中的村组及样本户,质量监控人员保证对失败样本换样执行最严格审核,最大程度减轻因访员更换样本对样本代表性造成的影响。
①换样规则
首先我们根据调查访问实地情况及调查项目需求,并参考往期调查中出现的各种样本接触情况作出预设,依据预设情景制定严格的替换样本规则,即可以分别针对受访户地址错误/不详/拆迁、空户、敲门无人应答、拒访、不符合访问条件、及其他情况,制定相应的换样规则。对于追踪样本,当出现地址错误/不详/拆迁、空户、无人应答等情况时,必须经过中心后台联络、访员前端各种方式追寻无果后,方可申请换样;对于敲门无人应答、拒访两种情境,必须寻求当地社区或联络人协助入户,且经过六次敲门无人应答(其中一次在周末,两次在晚间)、三次拒访时,方可申请换样。
②换样审核
实时访问阶段中,中心质控部门安排专人负责审核访问员提交的每一个换样申请,严格查看访问员每一次实地接触样本情况,包括样本访问失败原因、接触次数、每次接触时间等,根据接触情况判断样本是否仍有争取可能性,以及是否达到申请换样的既定标准。
③换样流程
(2)成功样本
2015年,我们对每个访问成功样本均实时监测了其调查过程、严格审核了调查数据质量,监测及审核合格,方收入调查数据库。在监测与审核过程中,如发现访问问题,会对相关访员进行及时反馈和指导,以纠正访员不规范访问行为;如出现异常数据或错误数据,会进行有效清理,以提高调查数据质量。
①调查质量监控要求
对于2015年中国家庭金融调查项目访问人员行为监测与核查,要求如下:
●访员严格按照调查要求进行访问,工作细致、严谨、耐心,熟练运用相关访问技巧,保证调查数据及资料的完整性;
●访员对问卷、访谈提纲理解透彻,对问题题意、填答要求把握精准,准确、忠实记录受访者回答答案,保证调查数据及资料的准确性;
●访员的态度保持中立、客观,不受任何外界因素干扰,不诱导或暗示受访者填答,保证调查数据及资料的客观性;
●访员严格按照抽中样本开展访问,不得出现任意挑选访户、更换访户、自问自填、臆答等弄虚作假行为,保证调查数据及资料的代表性和可靠性。
综上,通过严格监督和管控访员访问行为,可从源头有效避免收集“不达标”的调查数据或资料。
②调查质量监控流程
●计算机辅助调查系统回传成功样本访问数据及相应并行数据;
●核查人员通过质量监控系统监测访问过程、多维度核查样本数据;
●根据监测核查结果评估每个样本调查质量,及时清理异常数据;
●汇总、反馈调查执行中出现的问题,并指导访员进行纠正;
●针对访问行为不端样本、数据质量不合格样本,及时提出补访方案。
③样本监控、核查方式
●电话核查
对调查成功样本进行电话回访,主要目的为核实访员是否真实接触抽中样本,并认真完成了访问,保证访问样本的准确性及调查过程的真实性。回访时,主要核实三个方面信息:询问受访户身份或地址,确保访员准确访问了所抽中样本;询问受访者对访员工作评价,确认访员是否认真完成访问;询问两三个客观问题,与调查回传数据进行对比,防止弄虚作假。
●录音监控
为保障调查过程及填答规范、准确,在受访户知晓并同意的前提下,调查系统对每个样本问答过程进行同步录音,并随同数据一并回传至后台。核查员通过听取访问录音,全程监控样本访问过程,及时发现并更正错误填答、纠正访员不规范访问行为及其他访问偏误。
录音监控务必保证每位访员均会有样本被抽中核查,抽样方式为:
A、对每个访员第一份同意录音的成功访问样本都进行录音核查。
B、每个访员剩余其他同意录音的成功样本按一定比例随机抽选进行录音核查。抽查要保证样本覆盖到每位访员,且同一访员的抽核样本在访问时间分布上尽量分散。
录音核查结果需及时给予反馈,并提醒访员须注意的问题,在访问结束后对每个访员进行质控评分。
●数据核查
数据核查主要对样本的数据逻辑、阈值标准、无效比率情况、键盘记录等方面进行分析,识别异常样本和异常数据。核查重点主要包括四个方面:“不知道”或“拒绝回答”率核查、访问时长核查、异常值核查、数值题目检验。对于核查标示的异常数值,须通过录音监听、电话回访等方式核实,并对异常数值作出“修改”、“删除”或“保留”判断。
A、“不知道”或“拒绝回答”率核查
在调查访问中,对于受访者缺乏了解或触及隐私的问题,允许回答“不知道”或“拒绝回答”,样本数据中这两个选项出现的比例在一定范围内,都属于正常情况。当“不知道”和“拒绝回答”的出现比率过高时,则极有可能出现受访者敷衍作答,或访员消极访问的情况。因此,可以计算每份问卷中“不知道”和“拒绝回答”的频率,判断出可疑样本数据。
B、访问时长核查
a、时长过短:
调查系统将自行记录每题进入和退出的时间点。故核查阶段可计算得到每个样本在访问过程中的耗时情况。通过对比分析所有成功访问样本的时长分布,根据预设置信水平,标示出时长过短的异常样本。
b、时长波动:
不同问题的难度系数具有明显的差异,理论上其答题时长也将有明显区别。若样本每题的答题时长几乎无波动,则该份问卷数据质量存疑。故可使用样本答题时长的标准差与离散系数来衡量时长波动情况,将标准差或离散系数小于1%分位数的样本单独列出,标示出时长波动异常样本。
c、时长差异:
为避免访员通过延长、缩短答题时间掩饰作弊行为,可采用时长差异作为核查标准,选取每题答题时长的中位数作为该题的标准答题时长,将核查样本的对应题目与标准答题时长进行对比,根据95%分位数,设置异常题目的标准。最后,统计该样本中异常题目数量,利用99%分位数将异常样本标列出来。
C、异常值核查
异常值核查主要采用3σ准则,即拉依达准则,它认为数值分布在(µ-σ, µ+σ)的概率为68.27%,数值分布在(µ-2σ, µ+2σ)的概率为95.45%,数值分布在(µ-3σ, µ+3σ)的概率为99.73%。其中,µ为一组数据均值,σ为该组数据标准差。也即:数据有极大概率落在均值与三倍标准差之间。若数值不在该区间范围内,则认为该数据异常。故此,对数值类题目异常值的处理,可将取值大于或小于样本均值三倍标准差的部分标记为异常,并计算异常值比例,由99%分位数设定异常值判别标准,标示出异常样本。
D、Benford检验
Benford定律,也称第一数字定律,描述日常生活中自然数1到9的使用频率。其公式为F(d)=log[1+(1/d)], d为对应自然数。
具体频率分布如下表所示:
表4-1 Benford标准分布
样本量足够的情况下,若样本数据首位数字的频率分布与标准分布差异较大,则可认为该地区样本疑似存在虚假信息,可标列为异常样本。
●GPS核查
GPS核查工作主要是充分利用监测访员GPS行走轨迹和调查系统记录的键盘数据,识别异常样本。理论上,调查访问的样本可能会集中于某些位置,但不应过分集中。故可以统计调查地区所有GPS点,并计算样本集中情况(每个GPS点完成的样本量),作为调查质量评价判断因素之一。
●图片核查
图片核查主要核实访员是否准确寻找到追踪受访户。在末端绘图抽样期间,绘图员会对每一个样本户外观进行拍照,并回传图片,访问期间,要求访问员同样对受访户外观进行拍照,此外,在调查时尽量征求与受访者合影。
核查员通过对比绘图员和访员拍摄样本户住宅外观照片,及对比追踪调查与基线调查两次拍摄受访者合影,判断本次访问的准确性和真实性。
●重点核查
将上述各项核查中提取出来的异常样本取交集,同时根据敏感数据缺失情况进行重点核查,最大可能保证调查数据的高质量。
对成功访问的样本进行上述多维度的核查,并通过实时核查、数据清理获得较为真实的数据,从而实现研究目标,最终形成系统的数据服务。
④质量评估
在2015年中国家庭金融调查项目结束后,根据项目整体检测、核查情况,对调查数据质量进行整体评估,并以核查报告形式对调查数据质量进行详细阐释和总结。
(3)数据清理
在2015年中国家庭金融调查执行、核查结束后,质控部门对采集的调查数据进行了及时高效的数据清理工作。
数据清理主要包括修改变量名、添加变量标签、样本合并、数据拆分、多选拆分、清除无效变量等,访问结束后将使用核查后导出的数据,校正读取备注的信息、主动报备的情况(包括题目反馈、sid反馈等)、二次核查的情况等未录入系统的数据统一代码修正。
处理后重新编码、插值、收入资产负债计算,切割检查数据,编写数据使用手册,包括抽样、核查、质量、数据、插值、收入资产负债消费、权重等相应的说明,随数据一并交付。后续根据使用反馈更新数据,进行数据维护。