大型人群队列研究调查适宜技术
上QQ阅读APP看书,第一时间看更新

第三章 问 卷 法

第一节 评价方法

一、定义及分类

流行病学研究常常需要评估暴露对疾病发生发展的影响。暴露和疾病的测量有很多种方式,与之相应,也有很多类型的误差[1]。流行病学所关注的暴露范围非常广泛,外部的因素如药物、膳食、物理或化学危害,遗传因素如疾病易感性,一般特征如身高或眼睛颜色,生理因素如血压,生活习惯如体育锻炼或吸烟,精神健康状况如抑郁,以及社会环境等。同样,健康结局的范围也很广泛,从可以给出明确诊断的疾病,到通过特定的测量方式如问卷、体格检查或实验室检查得出的一个健康结果。

对暴露的测量方法取决于研究的暴露类型、数据的精确度、已有数据的可及性、调查对象的敏感程度、成本等。目前来说,测量的方式主要有问卷、实验室检测、体格检查等,本节着重介绍问卷法,后两者将在其他章节中讨论。

广义的问卷(Questionnaire)指由一系列问题和提示性语言构成的用于收集信息的研究工具,根据结构化和标准化程度的不同,分为量表、标准化问卷和一般问卷。三者的内容和区别如表3.1.1所示,量表的结构化和标准化程度最高,其次是标准化问卷,最后是一般问卷。由于大型队列研究非常重视研究数据在时间上的连续性和在研究之间的可比性,因此,本节主要探讨的是量表和标准化问卷。

表3.1.1 量表、标准化问卷、一般问卷的比较

另外,从应答方式来看,问卷可分为自填式和访谈式。从媒介上来说,又可以分为纸笔问卷和无纸化问卷。近些年来,随着互联网技术的发展,无纸化问卷正得到越来越广泛的应用[2]。不同问卷类型的优点及局限性详见表3.1.2。

无纸化问卷[3]又可以分为两类:基于便携设备(如平板电脑)的问卷和基于网页的问卷。前者在调查对象招募、测量误差等方面类似于纸笔问卷。后者则与传统的纸笔问卷有较大的差别,该方法假设调查对象能阅读、能上网,存在排除一些文化程度较低且不能或不会上网潜在人群的可能性,但同时又可以纳入一些现场招募不易获得的人群(如白领阶层)。

表3.1.2 不同问卷类型的分类、特点及应用

基于便携设备的问卷调查,由于前期开发工作量大,且设备购买和维护也有较大的成本,目前只在大型队列中有所应用,如英国的UK-Biobank队列(UKB),中国的Kadoorie慢性病大型人群队列(KSCDC)。而基于网页的问卷调查,由于其人群的选择性,目前多应用于社会学领域。

二、问卷的流行病学应用

大多数流行病学研究,如疫情暴发调查、队列随访、大规模监测等,常常全部或部分依赖于问卷调查获得相关信息,该方法的优缺点如表3.1.3所示。虽然近年来,仪器测量、生物样本监测逐渐得到广泛的应用,但不可否认,问卷依然是系统全面地收集信息的重要工具[4]

表3.1.3 量表和标准化问卷在流行病学研究中应用的优点和局限性

在广泛使用问卷调查的同时,要清醒地认识到该方法也存在一些问题。第一,相较于研究设计、人群选择和样本量计算,问卷开发或选择尚未引起足够的关注。当前许多流行病学研究中所使用的一般问卷都或多或少存在一些问题,如未应用已有知识,未实施预实验,未经过专家咨询等[5]。第二,同一个研究主题常常缺少一套统一的问卷(或统一的标准),使得不同研究之间的可比性较差。第三,某些已开发的信效度较高的问卷,却未得到广泛应用。当然这也可能与两个因素有关,一方面,不同国家对是否将问卷发表有不同的标准,许多有价值的经验和信息无法得到广泛传播,另一方面,信效度数据常基于特定人群,在外推其他人群时考虑到地域、文化等差异需要将问卷本土化,该过程需要一定时间。

调查数据的质量常常直接影响研究结果的质量,因此,在研究中使用高质量的问卷就显得十分重要,尤其对于大规模队列人群研究,本身涉及调查对象数量较大,耗费人财物规模可观,能否采纳一套高质量的问卷合理高效的开展研究,将更为至关重要。

三、选择问卷

问卷选择的整体步骤包括三个方面:首先,检索问卷;接着,评价问卷。根据已有文献、调查目的、调查条件等,确定问卷评价指标。一般指标应包括参考时间(reference time)、内容效度、构想效度、信度、可及性、便利性等。查看每一份问卷,并利用筛查指标进行评价。注意评价过程中,数据采用双录入以确保评价质量。最后,总结问卷。研究者可根据研究需要直接选择某一种问卷或根据研究目的和现有问卷的设计思路自行设计新的问卷。

(一)问卷的检索

首先,检索问卷。问卷主要来自三个方面,首先是来自于文献检索,常用的检索平台如pubmed,全文数据库如Science Direct,Ovid等都能找到大量的问卷及相关信息;其次是参考已有的大型队列使用的问卷,全世界大型队列注册登记的网站如P3g提供了全球48个大型队列的研究问卷;最后是一些专门的工具网站,如phenxtoolkit。这些来源的问卷特点如表3.1.4所示。

表3.1.4 三种来源的问卷的特征

(二)问卷的筛选

收集了用于特定调查对象特定目的的所有问卷后,需要通过一些指标对问卷进行筛选。常用的筛选问卷的指标包括:效度、信度、可及性、便利性等。

信度即可靠性或可信度,是指调查结果的一致性和稳定性,也即调查过程中随机误差造成的调查结果变异程度的大小。常用的信度指标有重测信度(test-retest reliability)、复本信度(equivalent-form reliability)、折半信度(split-half reliability)、内部一致性信度(internal consistent reliability)。由于重测信度在实际中应用广泛,因此,本章节中将重点介绍重测信度。

效度即正确性程度,是指问卷准确并充分调查理论上和实际上所需调查事物的程度,一般可分为内容效度(content validity)、校标效度(criterion validity)、预测效度(predictive validity)、构想效度(construct validity)。将效度视作一个整体概念时,构想效度已综合考虑了内容、校标、结果。因此,本章节主要介绍内容效度和构想效度。

1.重测信度

重测信度,指用同一调查工具,在不同时间对同一调查群体调查两次,并计算两次调查结果的一致程度。两次调查的间隔时间应足够短,以保证调查对象的被调查特质尚未发生明显变化,但也应足够长,以避免回忆。如调查过去一年中每周或过去一周的体力活动,间隔时间在1~3天较为合适。若调查指标为分类变量,重测信度可采用Kappa值表示;若调查指标是等级资料,可采用肯德尔和谐系数(Kendall coefficient of concordance)表示;若调查指标是连续变量或等级变量,可采用组内相关系数(Intraclass Correlation Coefficient,ICC)来表示。Kappa和ICC的值与重测信度的对应关系如表3.1.5所示。

表3.1.5 重测信度的指标[6]

2.折半信度

折半信度,检测问卷和量表题目的内部一致性,结果常以克朗巴哈系数(Cronbach'sα)表示。具体计算公式如下:

其中,q表示条目数,xi为各个条目的得分,H为所有条目得分的总和。若α≤0.6,常认为内部一致信度不足;0.7≤α<0.8,表示问卷或量表信度相当好;0.8≤α<0.9表示信度非常好。

3.内容效度

内容效度(Content Validity,CV),指问卷所包含内容与所要调查内容之间的吻合程度。问卷设计阶段,问卷设计者所定义的维度、选择的条目及设计的结构都会直接影响到问卷的应用,因此,研究者在选择问卷时需要关注问卷内容是否包含了研究者所需要的维度和条目。

问卷内容效度的定量评价中,应用最广泛的指标是内容效度指数(Content Validity Index,CVI),具体分为条目水平的内容效度指数(Item Content Validity Index,I-CVI)和量表水平的内容效度指数(Scale Content Validity Index,S-CVI)[7]。其中后者按计算方法不同,又分为全体一致S-CVI(S-CVI/UA)和平均S-CVI(S-CVI/Ave)。具体评价,当量表I-CVI不低于0.78,S-CVI/UA和S-CVI/Ave分别不低于0.8和0.9时,提示内容效度较好。

4.构想效度

构想效度,指理论假设是否得到了经验数据的证明。其评估方法包括:对调查本身的分析、调查之间的相互比较、校标效度的证明,其中比较常用的是最后一种——效标效度。校标效度有两个重要的衡量要素:校标和样本量。设定的校标必须具备一定的条件,包括有效、可信、客观、经济可行等。常选用已有测量或调查工具中的“金标准”作为校标,如测量体力活动的能量消耗时,金标准为双标水法。而对于样本量,虽尚无统一标准,但样本量较大时(一般超过50人)更有说服力。

在已有的“金标准”的情况下,尽量采用“金标准”作为校标。例如,短期的吸烟行为可被一个独立的观察员观察,或者有信度较好的生物标记物标记,那么吸烟问卷就可以通过比较这两组的结果进行验证。需要注意的是,独立观察人员的参与可能会产生“霍桑效应”,即被观察者可能仅仅因为被观察而改变他们的吸烟行为,使得问卷可能仅仅在特定的时空环境下有效,但使用生物标记物可以一定程度避免这种情况。

在有些情况下,没有非常好的“金标准”,如对于压力、日照量以及很多物理化学暴露等的测量,将问卷与已有的“非金标准”进行比较也是有益的。这种情况下,虽然不能估计测量误差的程度,但是仍能评估外界因素对问卷应答的影响[5]

5.可及性

大多数情况下,研究者都可以在公开免费的问卷中找到适合自己研究的问卷。但也有例外,因此一些问卷和量表有版权要求,需要研究者付费或与作者联系方可获得。另外,一些问卷还可能暂时没有研究者可以使用的语言版本,需要研究者组织翻译并重新进行信效度检验。

6.便利性

一般一个研究往往涉及多个调查对象,或需要在多个地方开展研究,此时,问卷耗时的长短、理解的难易、对调查员的要求都需在选择问卷时综合考虑。

四、问卷的开发

一般来讲,研究者倾向于使用已得到广泛应用并能满足自身研究需要的问卷,但若已有问卷不能满足研究需要时,设计和开发新的问卷就成为必要。

(一)一般问卷的开发

除了上述涉及特定主题的标准化问卷和量表外,研究者常常需要自行设计一些问题,一方面是因为一些常规的问题,如人口学特征,常常较为简单;另一方面是研究者感兴趣的而已有问卷不能满足要求的问题。这些问题虽然并不一定要获得满足要求的信效度数据才能使用,但也应遵循一些关于问卷内容和顺序的基本的原则。

常常,研究者最终得到的一套完整的问卷常常既包括自己设计的问卷,也包括标准化问卷和量表,在整套问卷的内容、顺序和形式上,也有一些简单的建议[1]。首先,问卷的长度常常取决于两个因素,一是研究主题所需的问题数,二是被调查者可以接受的时间,一般小孩的注意力集中时间较短,而成人则较长,但总的来说,一套问卷的耗时不宜超过1个小时。其次,整套问卷可以按这样的原则排序:客观问题在前主观问题在后,被调查者熟悉的问题在前陌生的问题的在后,问题的顺序符合逻辑和时间顺序,敏感的问题放在最后。再次,跳转和说明的文字尽量非常醒目。最后,问卷的排版大方美观,方便阅读。

(二)标准化问卷的开发

1.问卷的内容

开发新问卷和评估已有问卷内容相似,但顺序不同。开发新问卷时,最为关键的就是第一步,确定一个研究主题,设定问卷调查目的,确定问题所涉及内容。之后,研究者结合专业知识并借鉴已有问卷,充分考虑不同的问题形式设置,进而设计出合适的问题。如当研究者关注慢性病相关因素研究领域中静坐行为时,假设目标人群限定为老年人并无符合要求的问卷,需要自行设计问卷。已有研究表明,不同类型的静坐行为,如坐着听音乐和坐着做流水线工作,对人体精神和生理的影响不同,连续静坐和非连续静坐也不一致,因此,设计者在设计问卷时需要考虑静坐类型和是否连续静坐的区分。

问题的内容应该遵循一些简单的原则[1],首先,问题要与主题相关,表述具体且完整。“您是否曾被诊断为高血压?”与“在过去一年中,您是否曾被县级以上的医院诊断为高血压?”,后者的表述就更为具体和完整。其次,开放和封闭式问题的选择,取决于研究者对问题的了解程度。如果已有的知识中关于该问题的信息较少,希望从被调查者那里获得更为充足的信息,则开放式问题更好。最后,选项可以是二选项、无序多选项、有序多选项、连续变量填空、半开放式、开放式等如表3.1.6所示。

表3.1.6 问题的设置形式

问题形成后,应适当的配设提示和说明。问卷中的提示语一般置于问题中,常用于提醒被调查者是否多选、是否跳转、是否存在性别差异等,常常需要设置得较为醒目,如用黑体、加粗、下划线等。而说明是指与问卷相配套的解释性文字,用以具体解释每一个问题的内容,以及各种情况下的作答方式。框3.1.1所示的例子中,第一题方括号内的文字为提示性文字,第二题圆括号内的文字为说明性文字。

框3.1.1 问题的提示和说明

2.问卷的形式

确定问题内容之后,其呈现顺序也非常重要。一般来讲,问卷可按照如下顺序:识别——简单——连接——跳转——困难——隐私。问卷开始时,建议设置识别性问题,用以判断被调查对象是否需要回答该份问卷;之后,建议设置一些简单问题,或可引起被调查对象兴趣的问题;之后,设置一些连接各部分的小问题及一些需要跳转的问题;再之后,设置较为困难的问题;最后,设置涉及个人隐私的一些问题,如社会经济状况等。

另外,除了如上介绍的问卷的主体——问题之外,一套完整的问卷还应包括引导语、结束语、连接语等。引导语常置于问卷开头,用于向被调查者介绍调查的背景、目的、回答方式、保密原则等。若有专门的知情同意书,则问卷的引导语可以简化或省略。结束语常常置于问卷的结尾,一般常用于向被调查者表示感谢。连接语常常置于问卷中,用于连接问卷各个部分,同时提示被调查者结束上一个部分的回答并进入下一个阶段的回答。

3.问卷的校验

标准化问卷的校验主要包括以下四个方面:第一,评价问卷的信度和效度,常用的信效度指标包括重测信度、折半信度、内容效度、构想效度。第二,评价问卷的便利性,包括填写问卷需要花费的时间、问卷使用的语言是否通俗易懂等。第三,根据校验过程所得到的偏差或偏倚来源的范围和原因,对问卷进行调整和改善,并提供详细的使用说明。第四,如果问卷需要在研究者开发环境以外的人群中应用的话,如在不同的语言环境中使用时,需要进行问卷的翻译和回译,并重新评估问卷的信度、效度和便利性,以获得问卷在该人群中是否适用的证据。

总的来说,问卷的校验过程可以验证在考虑调查时间、调查人员、被调查对象等的影响后,问卷是否能达到调查目的。如果一份关于吸烟的问卷能提供一年或一天任何时间被调查者实际吸烟行为的准确数据,而不受到调查者个人因素(年龄、性别、种族)或者调查方式的影响,则问卷本身有效。

4.伦理学考虑

研究遵守伦理学原则已成为大家普遍的共识,应用到问卷使用,则主要表现在以下几个方面[1]。首先是尊重被调查者的知情同意权,被调查者有权在了解调查内容并得到数据保密承诺后作出选择,在调查过程中,对自己的个人信息享有隐私保护权。因此,在问卷开发中,应尽量避免过于敏感的信息,并且将个人信息的顺序放在后面。其次是尽量做到有益,即问卷应建立在已有的知识基础上,避免陈旧或错误,且尽量将结果反馈给参与调查的个体,在得知被调查者的暴露水平超过安全范围时,应在调查后告知其危害性。再次是尽量做到无害,即在调查中应没有语言所引起的道德方面如自尊等的伤害。最后是公正,即公平地对待所有的被调查者,如调查环境尽量相同或相似等。

(三)量表的开发

量表的开发较之标准化问卷更为严格,主要包括以下几个步骤[8]

1.明确目的和对象

明确量表所关注的主题和主要用途,量表可用于判别也可用于评价。明确量表适用的人群,普适量表适用于一般人群,而特殊量表则适用于特殊人群如老年人,患病病人等。

2.设立研究小组

如果是测量疾病患者某一类或几类特征的量表,如针对骨折病人的身体活动度,或某些特殊人群如婴儿、老人,研究小组常常包括医学专家、医生、护士、病人以及其他正常人等,组成议题小组(nominal group)和核心咨询小组(focus group),前者主要负责提出条目,后者负责筛选、精练和更为专业化的研制工作。

3.确定概念

核心小组需通过文献查阅、咨询专家、头脑风暴等方法给出概念的可操作化定义及其构成。如抑郁是指什么,包括哪些方面,各方面包括哪些内容等。

4.撰写条目池

由核心小组将概念的定义及构成介绍给议题小组,由议题小组分别独立根据专业知识、个人经验等写出概念相关的条目,然后将所有的条目收回形成条目池。

5.确定条目形式

一般采用线性或等级的形式,线性是指给出一定长度的线段(0~10cm),定出两个端点的值,并分段标记,等级是指各选项之间成等距离的等级形式,这种形式需要通过反应尺度(response scale)分析——对作为选项的程度副词进行定位分析——来确定。具体来说,首先对一个条目提出10~15个可能的回答,如关于频度的可能有“总是、经常、很少、偶尔、几乎不、从来不、……”;然后请被调查对象分别在一段有刻度的线段上(0~10cm)标出这些词的位置;接着对这些词所对应的分数进行分析,从而选出合适的词。如最终选择5个等级,那么0、2.5、5.0、7.5、10附近且方差较小的词就是适宜的选项。

6.筛选条目

条目筛选应遵循重要性大、敏感性强、代表性好、独立性强、区分性好的原则,同时考虑条目的可接受性[9]。研究者可以通过专家和未来量表使用者评分的方法考察条目的重要性,得分越高则重要性越大;通过指标的离散程度判断敏感性,离散程度越高则敏感性越强;通过相关系数法判断代表性和独立性,条目与本方面得分的相关系数绝对值越大且具有统计学意义,则代表性越好,条目与其他方面得分的相关系数无统计学意义或绝对值小,则独立性好;通过因子分析法来确定条目的取舍,选择在相应的公因子上载荷较大的条目;通过区分度分析来判断区分性,根据t检验、logistic回归或逐步回归的方法,选取能够区分实际情况的条目;根据克朗巴赫系数法(Cronbachα)从内部一致性对条目进行筛选,计算某一方面的α,比较去除其中某一条目后系数的变化,如果α系数有较大上升则应去除,反之则保留。通过重测信度法从稳定性的角度筛选条目。间隔一段时间后在同一人群重测所有条目,计算两次的相关系数,保留得分较高的条目。

7.预实验

将初步量表进行小范围人群调查,评估量表的信度、效度等。信度是指测量的一致性,常用的信度指标有重测信度、分半信度、克朗巴赫系数等,效度是指测量的准确性,常用的效度指标有内容效度、校标效度、结构效度等。

8.完善量表

在上述基础上修改完善,形成最终的量表。

五、问卷的选用标准

研究者在选用问卷时,需要遵循一定的顺序,首先,明确研究目的和测量指标。然后,考虑已有问卷的内容效度是否满足要求。接着,考察问卷的结构效度和信度是否达到可接受的水平;最后,考虑问卷的可及性和使用的便利性。总的来说,研究者需要就尽量达到的科学水平和实际操作的可行性两方面进行综合考虑,最终选择合适的研究工具。

如果现有问卷不符合研究需求时,就需要研究者结合已有问卷自行设计问卷,并在大规范使用前测试并评价其信效度,以便及时有效地优化问卷结构及题目设置。

参考文献

[1]Ahrens W,Pigeot I.Handbook of epidemiology[M].Springer New York,2005.

[2]Gunn H.Web-based surveys:Changing the survey process[J].First Monday,2002,7 (12).

[3]van Gelder M M,Bretveld R W,Roeleveld N.Web-based questionnaires:the future in epidemiology?[J].Am J Epidemiol,2010,172(11):1292-1298.

[4]Soskolne C L.Questionnaires in Epidemiological Research[Z].http://www.ilo.org/ oshenc/part-iv/epidemiology-and-statistics/item/473-questionnaires-in-epidemiologicalresearch,2011.

[5]Olsen J.Epidemiology deserves better questionnaires.IEA European Questionnaire Group.International Epidemiological Association[J].Int J Epidemiol,1998,27(6):935.

[6]Rothman K J,Greenland S,Lash T L.Modern epidemiology[M].Wolters Kluwer Health,2008.

[7]Polit D F,Beck C T.The content validity index:are you sure you know what's being reported?Critique and recommendations[J].Research in nursing &health,2006,29(5):489-497.

[8]方积乾,陆盈.现代医学统计学[M].人民卫生出版社,2002.

[9]郝元涛,孙希凤,方积乾,等.量表条目筛选的统计学方法研究[J].中国卫生统计,2004,21(4):209-211.