二、病因假说的检验
【问题2】
如何在临床实践中检验病因假说?
多种研究设计可以用来检验吸烟导致肺癌的假说。常用的研究方法为描述性研究、病例对照研究、队列研究、实验流行病学研究等方法。
思路1:描述性研究的方法
虽然描述性研究(descriptive study)结果因难以确定先有暴露后有疾病发生的时相关系以及难以控制各种偏倚的影响,因此其研究结果论证因果关系的强度不足。但如同前面对诊断水平的提高,空气污染是否是肺癌增加原因的讨论一样,描述性研究可以提供关于疾病分布的一系列信息,在暂时无法或者来不及进行病例对照研究或队列研究的基础上,描述性研究可以提供关于疾病分布的详细信息,用来对暴露与疾病关联的真实性进行初步判断。
思路2:分析性研究方法
分析性流行病学研究方法包括病例对照研究(case control study)和队列研究(cohort study),它们具有各自的特点。在吸烟是肺癌病因假说的检验过程中,各国的研究者广泛使用了这2种方法来检验该假说。
1.吸烟与肺癌的病例对照研究
1950年先后发表了2个在流行病学史上具有重要影响力的病例对照研究,在历史上第一次引起了科学界、政府、公众对于吸烟危害健康的重视。关于吸烟与肺癌关系的病例对照研究是1948~1950年,Wynder和Graham在全美11个州的多家医院开展的多中心的病例对照研究。该研究主要包括美国三大地区的三个独立的病例对照研究组,不同地区不同医院的研究结果显示出有良好的一致性。纳入研究的肺癌患者的诊断标准:最终纳入的605例确诊的肺癌中595例为组织活检、9例为痰细胞学检查、1例为胸水细胞学检查。纳入的对照为合作医院的不患肺癌的其他患者,年龄和社会经济状况与肺癌组相匹配,共计纳入780名患者。由于患者到医院就诊时,其吸烟习惯可能因为患病已经发生了变化。因此,研究者采用同样的问题调查病例人群和对照人群的吸烟情况,即所有研究对象被要求估计在他们患病前(或者调查前)日常吸烟情况包括吸烟的种类、吸烟量等内容。在该研究中对于吸烟习惯的分级见表1-6。肺癌组和对照组吸烟习惯构成的比较见表1-7。
表1-6 Wynder等人在吸烟与肺癌的关系研究中关于吸烟习惯的分级
表1-7 肺癌组和对照组吸烟习惯构成的比较
该研究的主要结论是:过度长时间的烟草使用,特别是香烟可能是肺癌发生的重要危险因素;在605名肺癌患者中,96.5%是中、重度吸烟者,而对照人群中仅为73.7%。男性中的吸烟者或者少量吸烟者发生肺癌的比例小于2%,96%的肺癌患者吸烟持续时间超过20年。吸烟和肺癌的发生之间大约有10年以上的时间间隔。
几乎在同时,Doll和Hill在英国也开展了吸烟和肺癌的病例对照研究。1948年4月到1952年2月,Doll和Hill等人搜集了3446名肿瘤患者纳入研究(包括肺癌、胃癌和大肠癌)。在排除了75岁以上以及诊断改变的患者后,剩下的3208名患者中,85%进行了调查,另外的15%的患者因各种原因无法完成调查。病例组(肺癌组)和对照组(胃癌和大肠癌组)无法完成调查的比例均为15%。最终纳入研究的有1465病例和1465个年龄、性别、居住地匹配的对照。非吸烟的定义为没有每日至少吸一支烟持续1年以上,吸烟者根据其吸烟量划分为5个组,如有戒烟者其吸烟量根据其戒烟前的吸烟量进行划分。表1-8比较了肺癌组和对照组人群中吸烟量分布。男性中肺癌患者与对照人群相比,吸烟者和非吸烟者的构成存在统计学差异(χ2=43.99,P<0.001),女性中也有类似结果(χ2=6.73,P<0.01)。吸烟量的构成比例在男性中2组人群的差异具有统计学意义(χ2=69.74,P<0.001),女性中结果类似(χ2=8.99,P<0.01)。
表1-8 患病前的日常吸烟量比较:肺癌患者与匹配的对照人群
虽然Doll等人的研究极大地推动了人们对吸烟导致肺癌的危险性的认识,但他们的研究结果为世人所接受的过程并不是一帆风顺的。由于当时尚未认识到吸烟过程中产生的致癌物质的危害性。在Doll等人发表吸烟与肺癌的病例对照研究结果后,很多批评者都认为病例对照的研究结果只是临床数据堆积而成的数字游戏,还有的批评者认为既然吸烟导致肺癌,为何口腔癌、舌癌或喉癌的发病风险并没有增加(实际上吸烟也是上述肿瘤的重要危险因素之一)。同时由于病例对照研究方法的先天缺陷(由果及因的研究方向),导致很多批评者认为即使吸烟和肺癌存在着关联,但这种关联并不必然是因果关联。例如Horn认为病例对照研究的主要优点是快速和相对便宜,但也存在选择合适的对照,暴露怀疑偏倚、入院率偏倚等多种偏倚的问题,因此有些统计学家认为病例对照研究更容易导致错误的结论。而且在文章发表30年后,Doll也认为病例对照研究中多种偏倚的存在是该研究设计的固有属性。但即使这样,Doll等人在1950年发表的系列关于吸烟与肺癌关系的研究,引起了世界各国政府、研究者、公众对该问题的关注,从而推动世界各国学者对于吸烟与肺癌关系开展了系列的研究。而这其中,作为检验因果关系效能更高的研究设计方法——队列研究也运用到检验吸烟与肺癌的因果关系假设中来。
知识点
病例对照研究
选定患有某病和未患某病但具有可比性的人群,分别调查其既往暴露于某个(或某些)危险因子的情况及程度,以判断暴露危险因子与某病有无关联及关联程度大小的一种观察研究方法。病例对照研究适用于广泛探索疾病特别是罕见疾病的病因,深入检验某个或某几个病因假说,为进一步进行队列研究或实验流行病学研究提供病因线索。
2.吸烟与肺癌的队列研究
在Doll等人发表关于吸烟与肺癌的病例对照研究报告近7年后,先后3个队列研究发表了各自关于吸烟与肺癌的研究报告。观察吸烟的健康效应的队列研究是20世纪最伟大的队列研究之一。虽然队列研究设计中先有暴露,后观察疾病发生概念很简单,但首次运用该方法来研究非传染性疾病的病因时却是很困难的。Doll等人用队列研究的方法,通过几十年的研究回答了吸烟的健康效应这个重大问题。该研究创立了运用队列研究方法进行病因研究的先河,是医学发展史上里程碑性的研究之一。
1951年,Doll和Hill向所有的英国男性注册医生邮寄了一份问卷,最终有34 439名男性医生完成了调查,约占总人数的66%。研究者在问卷中要求男性医生们将自己归入下列3类之一:①现在是吸烟者;②过去吸烟,但已戒掉;③从未习惯性吸烟(即从未每天吸卷烟1支或与其等量的烟斗丝长达1年)。对现在吸烟者还询问其开始吸烟的年龄、现在吸烟量及吸烟方式(指吸入深浅)。对已戒烟者也询问类似问题,但时间限定为刚戒烟前。首次调查发现,完成调查的男性医生中约17%的人是从未习惯性吸烟者。然后经过1957年、1966年、1971年、1978年、1991年、2001年共计6轮随访,随访应答率从最初的98%到最后的94%。观察的暴露为吸烟及吸烟量。观察的终点为死亡,在随访期间的死亡有98.9%的死亡原因得到确认。该研究的主要结果之一见表1-9。从表中可以看出男性医生队列中,当前吸烟者的肺癌死亡率是终生不吸烟者的14.64倍(2.49/0.17=14.64),即相对危险度RR=14.64。而既往吸烟者(已戒烟者)肺癌的风险是终生不吸烟者的4倍(0.68/0.17=4),相对危险度RR为4。而且随着吸烟量的增加,吸烟者患肺癌的风险也迅速增加,标化率的趋势性检验有统计学意义。
表1-9 按吸烟习惯分组的34 439名男性医生的死因别标化死亡率
*标化率的趋势检验,当χ2值大于15时对应的P值小于0.0001
知识点
队列研究
队列研究是将人群按是否暴露于某种可疑因素及其暴露程度分为不同的亚组,追踪其各自的结局,比较不同亚组之间结局频率的差异,从而判定暴露因子与结局之间有无因果关联及关联大小的一种观察性研究方法。队列研究由于可以观察到先因后果的时间顺序,并且相对于病例对照研究而言偏倚较少,因此具有较强的检验因果关系的能力。但由于观察时间长,花费的人力、物力、财力较多,其组织和实施难度较大。
思路3:流行病学实验研究
虽然实际工作中,运用流行病学实验研究(experimental epidemiology study)的方法来确定疾病病因的例子要少于观察性研究,但由于流行病学实验研究具有前瞻性研究的属性,并能够很好地控制偏倚,因此如果能够获得这方面的证据,将更有效地确认疾病的病因。
就吸烟与肺癌的关系而言,对吸烟人群进行干预以减少肺癌发生率的思想,在吸烟可能导致肺癌的假设提出来后就有学者提出可否进行人群吸烟行为的干预来观察人群肺癌发生率是否下降,从而检验二者之间的因果关系。但前期的研究发现吸烟导致肺癌是一个漫长的过程,中、重度的吸烟至少持续20年以上才有可能增加肺癌的发病风险。因此,通过吸烟干预来降低肺癌发生率的流行病学实验研究往往需要进行多年才能观察到结果。
1968~1970年1445名男性吸烟者(从16 016名年龄40~59岁的男性服务员中挑选出来,属于Whitehall第一阶段研究)被随机分配为2组,一组为干预组,纳入714名研究对象,另一组为对照组(标准干预组),纳入731名研究对象。干预组接受了一对一的个人宣教,宣教内容为吸烟对健康的危害,然后大多数人宣布希望戒烟,然后通过1年内平均4次指导来帮助其戒烟。大约1年以后,84%的随访成功者中有64%的人说他们已经不再吸烟,但其中还有约三分之一的人还在吸雪茄。在第一个10年,整个人群的净吸烟量减少了53%(约每天吸烟量减少了8支),但在第2个10年整个人群的净吸烟量减少了30%,主要原因是标准干预组的吸烟量也在减少(美国1980年以后全国大范围内的戒烟宣传所导致的效应)。该研究的主要结果之一见表1-10。从表1-10可见,对于进入研究时年轻的研究对象而言(进入研究时为40~49岁),通过戒烟的干预其10年内肺癌的发病风险下降并不明显,但10~20年内肺癌的发病风险约为对照组的一半,而年长组(进入研究时为50~59岁)戒烟的干预对其20年内肺癌的发病风险下降并不明显。
表1-10 进入研究的不同年限和不同年龄分组的相对危险度
另外一项戒烟的流行病学实验研究也取得了类似的效果。肺健康研究开始于1984年,研究者在美国和加拿大10个临床中心进行,招募了5887名年龄在35~60岁的无症状肺功能损害的吸烟者(肺功能轻度到中度损害)。这些吸烟者被随机分成2个干预组和一个对照组。2个干预组由临床医生进行12次每次2小时的行为干预活动,包括行为矫正和尼古丁口香糖的使用。其中一个干预组使用了异丙托溴铵气雾剂,另外一个干预组使用的是安慰剂气雾剂。对照组是常规干预措施。大约85%的参与者持续进行了10年的随访。随访是通过每2年一次的电话访问和第11年及第12年的到医院来完成随访。随访中了解参与者的吸烟情况、患病和死亡情况等信息。当电话随访了解到研究对象死亡的时候,研究者将搜集相应的死亡证明、尸检报告以及相应的医学记录。独立的死因或病因委员会将审查这些报告并对死因进行分类。2001年12月31日前的死因有98.3%得到了正确分类。不同干预组的死因构成见表1-11。不同干预组间死亡率无统计学差异。但生存分析的结果显示在小于45岁的研究对象中,不同的干预组间的死亡率存在统计学差异,但在45~52岁以及53~60岁的年龄组中无统计学差异。并且在吸烟量超过每日40支的人群中,不同的干预组间的死亡率存在统计学差异(表1-12)。
表1-11 肺健康研究中不同干预组的死因构成
表1-12 不同干预组间死亡风险比(HR)的分层分析
*特殊干预组对常规干预组
总结这两个流行病学实验研究结果,我们可以确定吸烟导致肺癌的假说是成立的。特别是在年轻人群中开展吸烟的干预是预防肺癌风险的有效手段。值得说明的是,并不是所有吸烟干预的流行病学实验研究都得到了阳性结果,这取决于观察时间的长短以及长时间研究过程中不可控的偏倚的影响。
知识点
流行病学实验研究
流行病学实验研究是指研究者根据研究目的,按照事先确定的研究方案将研究对象随机分配到试验组和对照组,对试验组施加干预措施,然后追踪这2组人群中的结局,从而判断干预措施的效果的研究方法。流行病学实验研究属于前瞻性研究,多采用随机分组的方法将研究对象分配到试验组和对照组,以控制研究中的偏倚。流行病学实验研究中的对照组和试验组来自同一总体的样本人群,具有较好的可比性。而人为的施加干预措施是其与前面介绍的观察性研究方法的最大不同。但值得注意的是,流行病学实验研究通常面临医学伦理学的问题。在病因研究的过程中,流行病学实验研究可以通过干预减少目标危险因素的水平,从而验证危险因素的致病作用。
【问题3】
如何评价不同的研究方法检验假说的效率?
思路:根据研究设计论证因果关系的力度,把各种研究提供的因果关系的证据力度水平进行分级,用于指导临床实践,即证据分级(hierarchy of evidence)。不同的研究机构提出了各种研究设计的证据分级,应用得最广泛的是牛津循证医学中心证据分级(表1-13)。可依据该分级评估研究设计检验病因假说的能力。推荐建议则根据证据质量、一致性、临床意义、普遍性、适用性等将推荐意见分为A(优秀)、B(良好)、C(满意)、D(差)4级。其中A级推荐意见应来自于Ⅰ级水平的证据,所有研究结论一致,临床意义大,证据研究的样本人群与目标人群吻合,因此该推荐可直接应用于各医疗行为中;而B、C级推荐意见则在上述各方面存在一定问题,其适用性受到不同限制;D级推荐意见无法应用于医疗行为。
表1-13 牛津循证医学中心证据分级(2001)