上QQ阅读APP看书,第一时间看更新
第二节 病例对照研究
一、概 念
病例对照研究(case control study)是观察性研究的一种,常用于疾病发生原因与危险因素的探讨,是分析流行病学中最重要也是最基本的研究方法之一,是检验病因假设的重要工具。由于肿瘤潜伏期长,特别是一些罕见肿瘤如阴道腺癌,进行队列研究成本较高,因此在肿瘤流行病学研究中,病例对照研究应用十分广泛。
基本原理是以目前确诊患有目标疾病的患者作为病例组,在病例的源人群中随机选取未患有目标疾病的人群作为对照组,收集病例组和对照组过去的暴露史,分析比较两组之间各种因素暴露的频率,经过统计学检验,如果两组之间暴露因素的频率存在的差异具有统计学意义,则该因素与疾病存在统计学上的关联,在平衡各种潜在的混杂因素和偏倚之后如果关联依旧存在,那么通过借助病因推断技术,可以推出某个因素是目标疾病的危险因素,从而达到对病因假设的检验和推导。研究示意图如图12-2所示。
病例对照研究基本特点为:时序上由后向前;按研究对象发病与否分为病例组与对照组;暴露是从现在对过去的回顾;从“果”到“因”。
二、类 型
(一)不匹配
这种研究设计比较多见,主要是在研究设计所确定的人群中选择病例和对照,一般而言对照人数要大于病例人数。
图12-2 病例对照模式图
(二)匹配
匹配(matching)又称为配对,指对照在某些方面或者某些特征上与病例组保持一致或者相当,主要目的就是在进行病例组和对照组比较时排除匹配因素的干扰。其具体可以分为频数匹配和个体匹配。
1.频数匹配(frequency matching)
此种匹配指的是匹配的因素在对照组和病例组中所占的比例一致,先明确匹配因素每一层中的病例数,然后从选定的对照人群中随机抽取一定的对照,与病例进行匹配,匹配时不要求对照组与病例组人数绝对数相等,重要的是要求比较组间的构成比例相同,如病例组和对照组的性别比例构成是一致的。
2.个体匹配(individual matching)
此种类型指的是以病例和对照个体为匹配单位进行匹配,1∶1匹配称为配对,也就是说一个病例匹配一个对照,1∶2,1∶3,1∶n时直接称为匹配。匹配比例越大,统计效率越高,但是比例数的增加和研究效率的提高是不成比例的,随着比例超过4,研究效率的增长幅度越来越小,这样会加大研究成本,进而降低研究整体效率。
3.匹配注意问题
匹配时需要确定匹配范围,这个可以通过预调查进行,同时需要关注匹配范围所导致的残余混杂。一般而言,匹配可以提高研究效率,控制混杂因素,但是匹配因素过多会使得研究结果推广性欠佳,且难以获取满足要求研究对象,甚至会造成过度匹配(over matching),降低整体研究效率。
三、研究对象的选择
病例对照研究中,研究对象的选择是非常重要的一部分。病例的来源决定着对照的来源,而正确选择对照是病例对照研究中非常重要的问题。
病例与对照的来源主要有两个方面:一个是研究对象均来自医院称为以医院为基础的病例对照研究(hospital based case control study);另一个是来自于社区人群称为以社区为基础的病例对照研究(community based case control study)。
(一)病例的选择
病例的选择需要明确疾病诊断标准,所获得的病例一般需要通过权威医疗机构诊断证明或者经过专家的确诊。
病例选择类别通常有新发病例、现患病例、死亡病例三种选择。新发病例对于自己患病前暴露回忆清晰,较少引入回忆偏倚;现患病例易于配合研究,但是对暴露回忆时准确性较新发病例要差,会引入回忆偏倚;死亡病例资料的收集主要是依据死者亲属、邻居等人的回忆而获得,其准确性不佳。
(二)对照选择
在病例对照研究中对照是否能合理正确的选择关系到研究的成败。肿瘤流行病学研究中对照需要注意以下几个方面。
1.对照选择的原则
(1)排除选择偏倚,缩小信息偏倚,缩小不清楚或不能很好测量的变量引起的残余混杂,满足真实性跟逻辑限制的前提下使统计把握度达到最大。
(2)来源是与产生病例源人群中的无偏样本,其患病状态也应该经过相应的金标准诊断确定。
(3)对照能代表源人群的暴露水平。
2.对照的来源及选择
(1)医院对照:选择与病例所在同一家医院的非患目标疾病的病人作为对照。以医院病人为对照具有数量多,来源广,资料易收集的特点。虽然存在明显的选择偏倚,研究结果的可靠性受限,但是由于其实施较易,所以通常采用较多。
(2)人群对照:主要是选择病人所在社区中的健康人群,此对照的代表性好,可以减少选择偏倚,研究结果的外推性较佳。
(3)邻居、同胞、配偶及朋友对照:邻居对照可以避免社会经济因素的混杂作用;同胞对照可以避免早期环境因素混杂,控制遗传因素,使其达到平衡;配偶对照可以控制成年期环境暴露的混杂作用。
3.以医院为基础病例对照研究选择对照原则
(1)对照应该包含多种疾病,可以避免过多地代表某一类病人。
(2)病例尽量来自新发病例,避免研究因素受到疾病迁延的影响。
(3)纳入的病例不能同时患有多种疾病,尤其是影响暴露资料收集的疾病。
(4)对照不能患有与研究因素有关的疾病,而且对照所患疾病不能与目标疾病有共同危险因素。
四、样本大小的确定
(一)影响样本大小的四个参数
1.研究因素在对照组(一般人群)中的暴露率( p 0)。
2.估计的该因素引起的相对危险度( RR)或暴露的比值比( OR)。
3.希望达到的检验显著性水平,即假设检验第Ⅰ类错误的概率α。
4.希望达到的检验把握度(1 -β),亦称功效。产生统计学假设检验第Ⅱ类错误的概率。
5.同时需要考虑到可能出现的无应答率,病例与对照之间的比例。
(二)成组设计样本量估计
计算公式:
式中n为病例组或对照组人数,U α和U β分别为与α和β值对应的标准正态分布分位数。 p 0和 p 1分别为对照组及病例组估计的某因素暴露率。
例:拟进行一项病例对照研究,研究吸烟与肺癌的关系。预期吸烟者的相对危险度为2.0,人群吸烟率约为20%,设α=0.05(双侧),β=0.10,估计样本含量n。
即每组需要调查232人。配对设计及多组匹配设计样本量计算较为复杂,可以参考统计学书籍。
五、研究因素的选定及测定
研究中需要收集的信息有研究因素、其他可疑的因素以及可能的混杂因素等。变量信息的获取主要是靠调查表,所以病例组和对照组应该使用相同的调查表,采用相同方式进行调查。
1.变量的选定
变量的选择与研究目的紧密相关,与研究有关的变量一个不能少,而且应该细致和深入。比如研究吸烟和肺癌之间关系的时候,需要明确吸烟这个变量,具体到吸烟的剂量、种类、次数等都需要明确。与研究无关的变量最好不要纳入调查表中。
2.变量的定义
采用公认的标准或者国际标准对变量进行定义,以便进行研究之间的比较。
3.变量的测定
变量的测定需要采用标准的测定方法,通过询问和仪器的测量可以获得定量资料,因此在研究中应该尽可能地采用定量或者半定量的量度。
六、资料收集及整理
(一)资料收集
在对研究进行设计之后,需要明确资料收集的相关内容,以获取能够满足研究需求的可靠资料。
1.资料来源
医院病案记录,疾病登记报告等;检测病人的标本获得;病例或对照的询问调查中获得。
2.资料收集方式
问卷调查;阅读文献;采样化验;实验室检查;家庭成员的询问。
(二)资料整理 1.原始资料的核查
收集的资料需要经过核查、验收、修正、归档等一系列步骤,以保证所获得资料尽可能地完整和高质量。
2.原始资料的录入
资料核查结束之后需要经过编码,输入计算机,建立数据库。
七、资料分析
流行病学资料的分析比较注重对暴露效应的估计和因果关联的推断分析。其中核心的内容是:比较病例和对照中暴露因素的比例;估计暴露因素和疾病之间的关联强度;计算疾病和暴露之间的剂量反应关系;估计因素之间可能的交互作用等。
(一)描述性分析 1.描述入选研究对象的一般特征
主要是人口学特征及既往疾病史,频数匹配应该描述匹配因素的频数比例。
2.均衡性检验
主要是比较病例组和对照组的基本特征是否相同,检验比较组间的可比性。
(二)统计性推断
病例对照研究中表示疾病和暴露之间关联强度的指标称比值比(odds ratio,OR)。比值即为某事物发生的可能性与不发生的可能性之比。表12-2为病例对照研究资料整理的基本格式。
表12-2 病例对照研究资料整理
根据表12-2,可以得出病例对照研究中病例组的暴露比值:
对照组中暴露比值:
由此可得比值比:
病例对照研究中一般难以估计发病率,更无法直接计算相对危险度,但是相关研究证明当疾病的频率小于5%时,OR为RR的极好近似值,可以用OR对RR值进行估计。其中OR值的含义与RR含义是相似的,表示暴露组人群患目标疾病的风险为非暴露组人群的多少倍。OR>1,说明疾病与暴露之间的关联是正相关,疾病的发病风险随着暴露的增加而增大;OR<1,说明疾病与暴露因素之间是负相关,疾病发病风险随着暴露程度的增加而减小。
1.暴露与疾病的统计学关联
检验病例组和对照组两组暴露率差异是否具有统计学意义。公式如下:
值得注意的是此公式在N<40,或者四格表中有一个格子理论数小于5时,需要进行校正,校正公式为:
2.不匹配不分层的资料分析
例如吸烟与食管癌的病例对照研究中,数据见表12-3。
表12-3 吸烟与食管癌关系病例对照研究结果
检验结果: p<0.05,表明吸烟与食管癌有关联,但是到底关联强度多大,需要计算 OR值:
按照Miettinen卡方值计算OR值的95%置信区间CI:
结果表明吸烟者患食管癌的危险性是不吸烟者的2.87倍,95%可信区间是2.18~3.78之间。
3.分层资料的分析
用以分层的因素是可能的混杂因素,通过分层可以控制这些因素对研究结果的干扰。
(1)分层分析的目的:
评价分层因素本身的作用;评价分层因素与暴露时间的交互作用。基本整理形式如表12-4。
表12-4 分层资料的整理表
例如研究吸烟与食管癌关系的病例对照中,按饮酒与食管癌的关系列表计算见表12-5。
表12-5 饮酒和食管癌关系
X 2=31.9, OR =2.29,可见饮酒与食管癌有联系。
(2)分层分析:
按饮酒与否分层如表12-6。
表12-6 按饮酒与否分层分析食管癌与吸烟的关系
饮酒者中吸烟的OR(2.98)稍高于不分层OR(2.87),不饮酒者中吸烟的OR (1.67)却低很多,表明饮酒是混杂因素,饮酒是可加强吸烟的作用。
(3)计算分层后合并OR值
按照Mantal-Haenszel提出的公式:
本例中OR MH=2.42,可见合并后OR>1,意味着吸烟可能是食管癌的危险因素,但是具体结果还需要进一步检验。
(4)用Mantel-Haenszel提出的公式计算总的X2值
式中∑E(a i)为∑a i的理论值:∑E(a i)=∑m 1in 1i/t i
式中∑V(a i)为∑a i的方差:
根据表中的数据计算结果:
(5)估计总OR值95%可信区间:
本例采用Miettinen法计算
OR MH的95%CI为1.83~3.21。合并后的 OR值区间不包含1,表明所求 OR值具有统计学意义。
经饮酒分层调整后,吸烟的X 2与 OR(即合并X 2与合并 OR)虽较未调整的X 2 (55.5)与OR(2.87)为低,但是关联具有统计学意义。吸烟与食管癌之间有显著的关联,饮酒是吸烟与食管癌之间的混杂因素,似能加强吸烟的作用。
4.1∶1配对资料的分析
匹配资料是由病例与对照结合成对子,分析结果时不应把对子拆开分析,先将资料列成下表的格式,注意表12-7内的数字a、b、c、d是病例与对照配成对的对子数。
表12-7 1∶1配对研究中疾病与暴露的关系
食管癌发病因素的研究中发现,吸烟与发病有关,男性的资料归纳成表12-8。
表12-8 93对男性食管癌与对照的吸烟史
X 2=11.28,OR =4.33,表明男性吸烟者患食管癌的危险性是不吸烟者的4.3倍。
OR的95%可信区间: =(1.84,10.18)
5.分级暴露资料的分析
如果获得某因素不同水平的资料,可以用来分析暴露和疾病的剂量反应关系,以增强因果推断的效能。其大体的分析过程:将资料整理归纳成列联表,对列联表内数据进行X 2检验计算各分级的OR值。相应计算及公式可以参考统计学书籍。
八、偏 倚
常见的偏倚主要有选择偏倚、信息偏倚、混杂偏倚。
(一)选择偏倚(selection bias)
在选择病例组和对照组研究过程中产生的各种偏倚称为选择偏倚,主要表现为入选的研究对象不具有代表性。
1.入院率偏倚(admission bias)
又称为Berkson bias当利用医院的病人作为研究对象时,由于所能抽取的病例是某家医院或者某几家医院的特定病例,而且医院和病例之间存在双向选择,同时所选择的对照只是医院的部分病人,不是全体目标人群的一个随机样本,因此难免产生偏倚,特别常见于因为入院率的不同而导致的选择偏倚。
2.现患病例-新发病例偏倚(prevalence-incidence bias)
又称为Neyman bias如果研究对象选自现患病例,所得到的信息很多是与存活相关,而不一定与发病相关;现患者可能改变了以往的生活习惯,减少了某些因素的暴露水平,从而导致某一因素与疾病错误的关联,由此而产生的系统误差为现患病例-新发病例偏倚。
3.检出症候偏倚(detection signal bias)
又称为暴露偏倚(unmasking bias)某种因素与研究疾病在病因学上无关,但是由于这种因素的存在,导致与该目标疾病相关的一些症状表现出来,使得该病部分患者及早就医,使得该人群中疾病的检出率高于一般人群,从而得出该因素与疾病之间存在关联性的错误结论。由此而产生的系统误差称为检出症候偏倚,此偏倚在对一些慢性疾病如肿瘤、动脉粥样硬化(AS)中有着重要的研究意义。
4.时间效应偏倚(time effect bias)
对于肿瘤、冠心病等慢性疾病而言,从开始暴露于危险因素到出现病变,往往经历了一个比较长的时期。在开展病例对照研究中,那些暴露了即将发生病变的人,已经发生病变但是不能检出的人或者在调查中已有病变但是缺少早期检出的手段而错误认为非病例的人,都可能被选入对照组,进而产生结论上的误差。
(二)信息偏倚(information bias)
指在研究实施阶段从研究对象获取研究所需信息时所产生的系统误差。在肿瘤流行病学病例对照研究中可以分为以下两种:回忆偏倚(recall bias)和调查者偏倚(investigation bias)。
1.回忆偏倚
病例对照研究主要是调查研究对象既往的暴露情况,由于被调查者对过去暴露回忆不准确而造成的系统误差。与调查时间和事件发生的时间间隔、事件的重要性、被调查者的构成以及询问技术有关。
2.调查者偏倚
此类偏倚可以来自调查对象、调查者双方。病例与对照的调查环境与条件不同调查技术,调查质量不高或差错以及仪器设备的问题均可导致偏倚产生。如调查者在收集资料时对病例组和对照组的态度不一样、询问仔细程度不一样,对病例组仔细或对自身关心问题仔细,对对照组不仔细等。
(三)混杂偏倚(confounding bias)
研究某个因素与某种疾病的关联时,由于某个因素既与疾病有关又与研究因素有关,进而掩盖或夸大了所研究的暴露因素与疾病的联系而产生的系统误差。此类偏倚的特点:不易识别,不易确定,需认真细致地去解决。偏倚的控制可以参考其他流行病学书籍。
九、研究实施过程
病例对照研究实施过程如图12-3所示。
图12-3 研究实施过程