大型人群队列研究调查适宜技术
上QQ阅读APP看书,第一时间看更新

第一章 大型人群队列研究概述

一、前言

●1854年,61例死亡病例分布,John Snow发现了被污染的水源造成了霍乱的暴发1

●1948年,107例肺结核患者,Austin Bradford Hill赋予了“随机对照临床试验(randomized clinical trials,RCT)”真正的内涵2

●1950年,709例肺癌病例分析3,Richard Doll与Austin Bradford Hill提出了吸烟导致肺癌的研究假设,随即启动了British Doctor Study队列,并证实了此关联4

●1958年,5209名小镇居民的募集,美国Framingham Heart Study(FHS)提出了“危险因素”(risk factors)的概念5,6,并建立了“弗明汉风险评分”(Framingham Risk Score)的10年心血管疾病预测模型7

●1976年,122 000封回收调查问卷,美国的Nurses'Health Study(NHS)开启了针对职业人群健康全球最大规模的队列研究,时至今日,自填式问卷调查的方式仍得以在NHS中被以最大化地利用和发展8

●1992年,521 468名欧洲10国的居民,23个研究中心的横向合并形成了EPIC(The European Prospective Investigation into Cancer and Nutrition)研究,短期横向合并的方式也真正开启了慢性病流行病学队列研究多国合作的先河9

上述一个又一个流行病学里程碑式印记的出现,多伴随着研究样本数量级的递增。21世纪的生物医学研究,“百万级”或“类百万级”的研究正在蓬勃发展:英国Million Women Study研究,于2001年完成了1,300,000名研究对象的纳入;我国的China Kadoorie Biobank研究,于2007年完成了51,3211名研究对象的纳入以及51,3116份血液样本的采集;法国、瑞典、美国等国也纷纷于近些年启动了以50万人群规模为目标的队列研究。截至2014年,据不完全统计,50万及以上人群规模的队列研究已完成基线纳入的有5个,仍在进行的有4个,募集研究对象累计将超过538万10

这样超大规模的人群队列研究,被形象地称为“超大规模队列(Mega cohort)”,其产生和发展震动了世界。Mega cohort究竟是什么?为何出现?将如何发展?21世纪生物医学领域是否会因为这样的“航母”级研究平台的出现而发生改变?在不远的未来,这些核心问题将被不断提出、质疑、解决和发展。

二、为什么构建Mega cohort

原因1:获得足够的罕见疾病新发病例

如表1所示,以2005年美国发病率数据为例,一个随访5年样本量为50万的队列的最直观结果是,在结束时能获得如表中所示的13种人类复杂性疾病病例共计8万多人。以“帕金森氏病或精神分裂症”为例,一个随访10年样本量为5000的队列在结束时理论上仅能发现4例,但一个随访10年样本量为50万的队列研究能累积424例(如表1.1)。通过超大规模样本量、积累够足量病例,此时不仅可以通过传统队列研究设计开展病因学研究,还能通过衍生病例对照研究设计(如巢式病例对照研究、病例队列研究、两阶段病例对照研究[20]等)的方式开展进一步分析。

表1.1 前瞻性队列研究发病估计11

注:a:假定每年的损耗率(失访率)为3%;b:来源于美国发病率患病率数据库(2005年)

如果说Mega cohort的构建初衷是为了在提高研究效能(多结局)的同时,在罕见疾病研究中获取足够的病例(即EPIC研究膳食与癌症的关系),那么如今的Mega cohort的构建目的则已经远远超出了这一范畴。

原因2:人类复杂性疾病“基因-环境交互作用”病因研究的客观要求

现代病因理论认为“大部分人类常见疾病是基于基因、环境、基因-基因、环境-环境、基因-环境的交互作用而产生的”12,13,由此而产生了“人类复杂性疾病”的这一概念。人类复杂性疾病以慢性疾病、心理精神类疾病为主,潜隐期长,共享一定的危险因素(如吸烟、肥胖、少体力活动等),对个体而言具有病程长、预后差、致残高的生物医学特点,对社会而言具有负担重、影响广、耗资大的社会经济学特点。作为21世纪威胁人类健康的首要原因,如何解开人类复杂性疾病的病因链,将注定成为21世纪生物医学领域的研究核心。

解开人类复杂性疾病的“基因-环境交互作用”的谜团,以生物样本库为基础的前瞻性人群Mega cohort研究设计将是唯一途径。针对不同发病率的疾病(表1.1),假定其发生是基于一定的基因-环境交互作用,通过QUANTO软件(版本1.2.4)可以计算出所需的理论病例数14,按照1∶1匹配的病例对照设计方法,笔者估算出不同样本量队列研究所需的最短随访年数如表1.2所示。

表1.2 前瞻性队列研究时间估计(以探索基因-环境交互作用的巢式病例对照研究设计研究)

续表

注:“—”表示为了获得该类疾病所需的匹配病例对照数,在相应样本量队列中随访观察的时间>50年。(表2的假定前提为:研究开始时队列中不存在任何患者,显性等位易感基因频率为10%,环境暴露频率为10%,把握度定为80%,Ⅰ类错误的概率为0.0001,遗传和环境边际效应为1.5,队列年失访率为3%。)

假定某基因型频率与某环境暴露率均为0.15,其基因-环境交互作用对于疾病的效应值(如比值比)为3.0(乘法模型),可以计算出理论上需要累计病例至少1173例。依照这一最低病例数,通过现有不同疾病年发病率的估计,则计算出不同样本量的队列研究需要随访的最短时间:

1)以发病率最高(约为3.00%)的“白内障,高血压”为例,样本量为20万、50万和100万的队列均可在1年内获取足够病例;

2)以发病率居中(约为0.20%)的“糖尿病,卒中,心力衰竭”为例,样本量为20万、50万和100万的队列获取足够病例需分别随访4年、2年和1年;

3)以发病率最小(约为0.01%)的“帕金森氏病,精神分裂症”为例,100万的队列需要随访15年,而样本量为20万和50万的队列即使随访50年也不能获取足够病例。

由此可见,相比以往较为单一的基于环境因素或遗传因素的流行病学病因研究而言,为识别人类复杂性疾病的“基因-环境交互作用”,队列研究的样本量需达到数以万计、十万计,甚至是百万计的规模。

原因3:“大数据”时代的必然趋势

“Big data is like teenage sex:everyone talks about it,nobody really knows how to do it.Everyone thinks everyone else is doing it,so everyone claims they are doing it...”

——Dan Ariely

杜克大学行为经济学家Dan Ariely在Facebook上的这句话从2013年1月6日发表以来,已不知在社交网络及主流媒体上被疯狂转发了多少次,形象地比喻了“大数据(Big Data)”概念在当下的混沌状态——“人人谈论,人人无策,人人推诿,人人冒名”。

从“机器学习”的角度理解,通过海量数据建模,数据从一个端口进去,结果从一个端口出来,中间的“黑匣子”在当前“实用主义”至上的社会似乎变得并不重要,但这绝非是“大数据”的本质诉求15。网络媒体监测(internet-based media surveillance)是公共卫生领域中率先应用大数据理念的先驱之一,其典型范例为Google公司于2008年开发的Google Flu Trends(GFT)。GFT以流感相关检索词的搜索量构建模型,来预测流感活动水平,构建之初,其运行结果不但和美国CDC的历史监测数据高度吻合,而且似乎能更早预测出未来的流感暴发,这当即给了固守传统监测的公共卫生学家迎头一击16。虽然随后有研究显示,GFT的预测结果高估了实际的流感活动水平18,但在“时效性”和“精确性”的对垒中,“利用网络检索进行数据挖掘以预测”的方法,尽管在信噪比(signal-to-noise ratio)处理和选择偏倚的控制上存在诸多障碍,对于传统的监测仍然无疑是一种有效补充18

“大数据”谈的不仅是数据量(Volume),还包括时效性(Velocity)、多样性(Variety)和精确性(Veracity),而“大数据”分析将凸显“总体取代样本、效率优于精确、相关重于因果”的三大特征15。瞬息万变的互联网时代,收发电子邮件、网络交易记录、多媒体文件上传下载等,任何一次点击就能产生数据,海量结构化或非结构化数据的产生也许能推动被互联网渗透下各行各业的革新和发展19

Mega cohort的建立对于生物医学研究领域来讲,似乎已经承载着“大数据”试验田的使命。假定一个随访20年人群规模为50万的队列研究,需收集的信息包括全基因组数据(30亿个碱基对),重复收集表观遗传组学数据(illumina HumanMethylation 450Kchip)及生化检验项目5次,以及10次问卷调查及体检测量,其数据量预估如表1.3所示。

表1.3 50万人队列研究随访20年的数据量预估

●加法模型计算次数:500 000×(3 000 000 000+2 250 000+2500+5000+1000)≈1.5×1015

●乘法模型计算次数:500 000×3 000 000 000×2 250 000×2500×5000×1000≈4.2×1031

●指数模型计算次数:500 000×3 000 000 000 2 250 000×5000×5000×1000=∞

从上述三种模型的简单计算来看,Mega cohort能产生的数据价值已不言而喻20。作为21世纪重要的研究平台和数据平台之一,Mega cohort的到来将会进一步从时间顺序、暴露交互、病因网络等方面,为明晰人类复杂性疾病的病因链而提供有力证据:

1)拆分“外暴露-内暴露-暴露时间窗-生物有效计量-健康效应-临床前期标志物-疾病发生”时间链上的每一个环节21-24

2)大量相关数据(控制变量或协变量)的收集和调整,有利于控制混杂25,26,进一步理清病因网络的各个环节;

3)个体化疾病预测、诊断、治疗及预防,将会因为更为个体化的海量数据和参数而真正成为现实27,28

此外,从实际操作和管理层面来说,建立在Mega Cohort研究平台下的数据收集、清理、存储、检索、管理、共享、传输、分析、可视化等,可能比完成研究本身更为重要,其管理模式、技术创新及人才培养等方面的发展,也将进一步服务于“大数据”。

原因4:组学技术的成熟

By the combinations of high-throughput analytical technologies in the fields of transcriptomics,proteomics,and metabolomics,we are now able to gain comprehensive and quantitative snapshots of the intracellular processes.Dynamic intracellular activities and their regulations can be elucidated by systematic observation of these multi-omics data.

——Kazuharu Arakawa and Masaru Tomita

生物组学发展已经跨越了学科和领域的界限,从传统的基因组学到如今蓬勃发展的表观遗传组学、转录组学、蛋白组学和代谢组学,组学测量技术的发展已宛如“纳米级相机”,让人类可以捕捉到细胞内的反应过程29(当前生物组学名目汇总如表1.4所示)。

组学检测技术的发展,使得Mega cohort在运用多组学测量技术方面的试探和应用成为可能。当前Mega cohort的建立越来越多的关注生物样本的采集、测量、储存和管理,将生物银行(Biobank)的理念纳入到被研究对象的基线纳入及后期的随访环节。

对于疾病个体的组学探索,在过往30年中蓬勃发展,但如今却也已经到达一定的瓶颈。然而,远端病因、外暴露、内暴露等如何作用于基因组、表观遗传组、转录组、蛋白组,从而影响到代谢组,产生生物学效应,未来多组学发展只会越来越向“暴露”端倾斜,如黄曲霉毒素加合物与肝癌、多环芳烃化合物与肺癌、芳香胺与膀胱癌等内暴露与疾病的关系如表1.5所示。对此,Mega cohort的优势不仅在于丰富多样的生物样本资源及相对完善的个体信息,更在于标化资料的收集过程和一定的人群代表性,使得多组学分析的结果具有可比性和普适性21

表1.4 生物组学列表

续表

续表

表1.5 暴露组学研究列举21

续表

原因5:“暴露组学”发展的需要

“Epidemiologists of all kinds are given a wide choice of options now and it will be their task,conditional on their study objectives and research focus,to create a delicate balance between‘bigger is better’and‘small is beautiful’.”

——Hans-Werner Hense

为何将用显微镜都可能捕捉不到的组学信息和数以百万计人群规模的Mega cohort结合起来?

2005年,肿瘤流行病学家Christopher Wild首次使用了“暴露组学”一词,强调分子流行病学领域中关于人类复杂性疾病的病因研究的发展方向,即是解开基因-环境的交互作用,如基因如何应对环境化学物质、免疫、脂类代谢、炎症、止血凝血等一系列暴露因子的内生过程(endogenous processes)46

2012年,“暴露组及暴露组学”(exposome and exposomics)的核心概念被提出,即“个体生命过程(personal life-course)的全暴露信息(totality of environment exposures)”。“暴露”既可以来源于外部环境,也可以来源于机体内部(图1.1)。外部暴露因素包括:不同的环境和生活方式因素,如化工、传染性病原体、饮食、烟草、酒精等;内部暴露则主要涉及机体的内生过程,如新陈代谢、荷尔蒙、炎症、肠道菌群(gut microflora)等47

“暴露组学”最大特点在于通过现有工具、技术、检测手段、应用程序等,尽可能获取一切暴露信息,而组学测量只是其中的一个重要组成部分。流行病学队列研究的历程从20世纪初的环境暴露和生活方式,到20世纪中后期的生物小分子,再到当下“暴露组学”的提出,“外源物质”和“内源因子”的汇合(基因-环境交互作用),Mega cohort作为最有利甚至是唯一的研究工具,其出现是必然的。

另外,Mega cohort能给暴露组学提供的不只是资源和可比的结果,如何整合、处理、分析和解释数据将会是暴露组学分析面临的最大挑战,不再只是“4个碱基”或是“20种主要氨基酸”的排列组合,而是不计其数的通路、网络和线索。

至此,回答本节开篇的问题,为何将组学信息和Mega cohort结合起来,因为当下mega cohort可能是最优的研究平台,以实现“微观”和“宏观”的结合,做到真正的“大而好”且“小而精”。

图1.1 暴露组学特征及结构示意图47

原因6:统计分析的发展

与“大数据”中提到的海量非结构化数据有所不同的是,Mega cohort所收集的数据相对来说是结构化的,甚至是标准化的,其建立的目的即是探究人类复杂性疾病的病因因果链,从而服务于疾病的预防、治疗和康复,并不是互联网或商业大数据的“相关重于因果”的结果导向。

与“大数据”相对应的“云技术”,一方面能服务于Mega Cohort的数据管理,如传输、储存、共享、可视化等,而另一方面则在于应用“云计算”进行统计分析。诸多基因测序公司,如BGI、Illumina、Life Tech等诸多基因测序公司,也逐步将统计分析作为未来重要的业务拓展和发展方向。

Mega cohort的数据处理较以往传统队列研究,可能将更多倾向于交互作用的探索、网络模型的构建、重复测量的处理等。对此,目前已有部分统计方法(表1.6)、配套软件(表1.7和表1.8),以及协变量调整方法(如adjusted RV coefficient48、disease risk score49、Propensity Score49等),能够服务或部分服务于大规模队列研究的病因学研究以及多组学分析。

表1.6 重复测量的统计方法列举

续表

表1.7 通径重建(pathway reconstruction)软件列表29

表1.8 通径图谱(pathway mapping)软件功能对比29

三、Mega Cohort现状简介

(一)构建方式

至今为止,较为遗憾的是Mega Cohort仅仅停留在字面意义上,样本量究竟多大才能被称为Mega Cohort并没有明确的定义,几万、几十万或上百万的队列均可称为“Mega Cohort”或“Large scale cohort”。但是,从实际操作层面来说,能够一次性募集到几十万人群规模的研究对象绝非易事,所以对于起初无法达到数十万研究对象的队列研究来说,可利用以下两种途径累积和扩大样本量:

(1)纵向发展:

在原始队列的基础上进行纵向发展,这种方式无疑是累积样本量以构建Mega Cohort经济可行且具有良好可持续性的手段,但需要注意的是由于不同纵向队列间研究对象的异质性及研究内容的保守性,会一定程度地限制数据的合并以及结论的外推,美国退伍军人的Millennium Cohort Study即是典型代表。另外,利用既定信息系统(特别是具有个体身份和联络信息)进行分批招募,也是一种重要的募集途径,如Million Women Study和NIH-AARP Diet and Health Study。

(2)横向合并:

将原本零散的、规模较小的、对象相对单一的队列研究整合成具有一定共性的Mega Cohort,这种横向合并方式的最大优势在于能在较短的时间内形成多中心研究大样本,但需要注意的问题却在于标化数据的获取和利用,是通过统一的方式前瞻性获取?还是通过查阅的方式回顾性整合?这需要研究者综合多方面因素考虑,例如The NewGeneris cohorts and Biobanks和ENGAGE(European Network for Genetic and Genomic Epidemiology)。

(二)组织模式

对于超大规模前瞻性队列,为了现场调查数以十万级的研究对象,美国学者Teri A.Manolio总结了如下三种组织模式50,如表1.9所示。

Mega Cohort的构建方式各异,需基于特定的研究目的,因地制宜。每一种Mega Cohort的构建方式都有其自身的优缺点,不存在“万能”设计,需弄清不同设计和方法背后的原因、条件和作用,才能指导研究者更好地利用已有资源和/或创造必要条件以开展此类研究。

表1.9 大型研究现场调查组织模式50

(三)现状简介

全球范围来说,目前50万及以上样本规模的Mega cohort数量已达到了9个(如表1.10),我国20世纪70年代以来1万人以上规模的队列研究也累计达到了22个(如表1.11)。如果Mega cohort仅仅是传统队列研究在“数量”上的机械扩增,其意义将是十分有限的。从人类复杂性疾病“基因-环境交互作用”病因研究的客观要求出发,2004年美国学者Francis S.Collins提出了理想队列应该具备的13个特征13

1)样本量至少应达到数十万的级别,在此基础上所发现的人类复杂性疾病基因-环境交互作用,才有可能具备可接受的统计学把握度;

2)对于少数种族(或民族)需要采取“过抽样”(over sampling)的方式,以得到可以推论至其群体的结论,并有可能在一定程度上增加队列研究对象的健康结局或暴露程度的差异性;

3)队列人群应当具备一定的年龄代表性,以获得不同年龄段的相关信息,所以对于某些特定的年龄段人群可能需要采取“过抽样”的方式;

4)种类多元化和程度差异化的暴露信息,如不同的遗传背景和多样的环境暴露,在此前提下进行关联及交互作用的探索和比较;

5)在队列人群中,应至少纳入部分家系(多世代)以增加遗传分析的把握度;

6)对于个体临床及实验室检测的信息,一要够广的范围(不仅仅针对某种疾病),二要够长的监测(贯穿于基线和随访过程中的重复调查);

7)涉及个体生活方式、膳食及环境等暴露调查应尽量深入和仔细,除利用问卷开展调查外,还应当结合生物学检测的方式;

8)生物样本的采集和储存,如静脉血、脐带血、尿液、唾液、毛发、指(趾)甲等;

9)高尖端的数据管理系统;

10)数据和生物样本的开放和共享,以吸引和纳入在各个不同学科方向的研究者和研究课题;

11)并不需要在研究之初就完全确定研究期间所涉及的所有调查内容及假设;

12)全面的社区参与是决定研究成败的关键因素之一;

13)最先进和便捷的知情同意过程,如无纸化知情同意书的电子签名等;

14)最先进和快捷的知情同意。

除此之外,在实际操作层面,结合我国国情,笔者认为应考虑以下几点:

1)资源的持续投入:人才队伍的建立,多方资源的利用,以及大量可持续的资金投入,是保证Mega Cohort最核心的供给;

2)信息关联:出于及时性和成本经济的考虑,通过关联既有系统(如国家及地区层面的各类健康登记系统,医院及社区卫生服务中心的记录)的方式,被越来越多的应用在信息获取中;

3)伦理保密的发展:相对于传统“一次性全部的”知情同意,研究对象可选择“部分的”知情同意,并且知情同意可以进行转移、更新和修正。另外,应制定相关的保密流程,通过技术手段和规章制度,确保个人信息的保密性落实到研究的各个环节;

4)先进技术的应用:由于要在有限的时间内完成研究对象的募集,快速扫描及编码、无纸化问卷、远程数据传输、IT系统、半工业化流程等先进技术的利用均是必要的;

5)后勤管理:包括生物样本库、数据库、人员、物资等的现代化管理,该部分所涉及的内容可参考相关学科。

(四)国内外大型队列研究列举(表1.10,表1.11)

表1.10 全球50万及以上人群样本的Mega cohort

表1.11 我国1万及以上人群规模的队列研究列举(22个)

续表

续表

a,单例活产

四、机遇与挑战

(一)流行病学的新机遇

作为流行病学研究的新型平台,Mega Cohort研究以其超大的研究样本在增加研究效能(多结局)的同时,也能弥补传统队列研究在罕见疾病研究中“难以获取病例或获取足够病例”的劣势,开启罕见疾病队列研究的大门。

从理论角度来看,Mega Cohort研究以其特有的灵活性和拓展性,将打破传统队列研究的理论和实践范畴,不断衍生、发展和传承,主要反映在以下三个方面:

(1)由“大”化“小”,如巢式病例对照研究、病例队列研究及随机对照临床试验;

(2)从“一”展“多”,如暴露重复测量、纵向家系发展及横向平台合并等;

(3)一“瞬”及“永”,如生物银行、生物信息库。

(二)信息测量的新要求

Mega Cohort研究的测量范畴不外乎暴露、生物标志物、健康结局三大范畴,但对于信息和测量本身却提出了新的要求:

(1)个体测量种类的扩充,除了传统的个体人口学特征、社会经济状况、家族史、疾病史、用药史、性格或心理评估、生活方式(吸烟、饮食、睡眠、体力活动等),分子生物学信息将是Mega Cohort研究的重点,包括基因组学、表观遗传组学、代谢组学、蛋白组学等;

(2)宏观信息测量的纳入,如自然环境、建成环境、室内环境等真实环境,以及社交环境、网络环境等虚拟环境;

(3)测量频率、时间、强度和规模的新要求,暴露的重复测量及长期监测,从外暴露、内暴露、暴露时间窗、生物有效计量、健康效应、临床前期标志物到慢性疾病的跟踪测量,高通量组学测量技术的进一步发展,甚至是“多组学”芯片的研发等;

(三)合作共享的新平台

从现有的实例来看,Mega Cohort的出现和发展已经切切实实地促进了学科交叉、技术融合、平台共享等先进理念的实践,如英国的ALSPAC研究(The Avon Longitudinal Study of Parents and Children)已将队列研究引入到了社会学研究范畴;UK Biobank引入机器人系统进行生物样本的处理和管理;1999年至2014年的美国NHANES研究,除敏感信息外,几乎共享了所有的数据(http://www.cdc.gov/nchs/nhanes.htm);另外,2012年10月至2014年1月22日,将UK Biobank作为研究平台的注册研究,也已经达到了39个(http:// www.ukbiobank.ac.uk/approved-research-2/)。

作为研究新平台,Mega cohort可拆分为研究工具平台、生物资源平台和数据信息平台三个主要部分:

(1)研究工具平台,将“队列研究对象”和“观察时间”视为研究总平台,拆分为“子队列”和/或“子观察时间段”的“子平台”进行局部研究,嵌套研究的引入必定会吸引更多的研究机构或研究者。

(2)生物资源平台,将“队列研究对象”及其“生物样本”视为资源,在符合知情同意、伦理、保密等条件的情况下,获取具有某种特征的生物资源以服务于特定的研究目的。

(3)数据信息平台,将“数据信息”视为唯一资源,基于一定条件建立起数据资源的“流动性”和“可获取性”,将独立的小队列融合成大队列,将个体的Mega cohort合并成Hyper或Super Mega cohort。

(四)统计分析的新困境

Mega cohort的战略意义并不在于“大数据”信息的掌握,而在于对这些含有意义的“大数据”进行专业化、合理化、科学化的处理和解读。如果说大数据在其他领域(如互联网和商业)倾向于构建大环境中的“相关关系”以预测个体的行为,强调的是时效性,承认混杂;那么Mega cohort所承载的则是探索、解读和验证人类复杂性疾病从暴露到结局的层层“因果关联”,关注误差的来源、控制和测量。

统计分析的新困境包括以下三个方面:

(1)时效性,对于海量的数据规模和研究假设,当下主流软件工具在合理时间内是无法完成数据撷取、管理、处理和解读的。

(2)整体性,对于人类复杂性疾病的病因链或病因网络,当下的统计方法、模型和软件仅能处理其中某一部分或有限几个部分。

(3)科学性,也许可以让数据通过“机器学习”的方式自行建立“相关关系”,但这样的做法存在一定的盲目性,且与探究“因果关联”的科研本质背道而驰。

(五)投入管理的新动员

Mega Cohort被诟病最多的,即是难以保证其可持续性,日本的Biobank Japan已有前车之鉴51。Mega Cohort的持续必定需要源源不断地依赖于人力、物力、财力和时间的巨大投入和高新技术的不断发展。以UK Biobank为例,仅前期工作(包括预实验、招募对象、基线评估、构建数据样本库等)的总花费就高达约1亿美元,随后每年仍需花费约7百万美元用于健康结局评估、样本储存和IT系统升级等相关事宜52。另外,以全基因组扫描(full genome sequencing)为例,美国Illumina公司2011年全基因组扫描的报价为4000美元/人,那么50万人仅此一项检测的费用就将花费20亿美元,就更别说成千上万的暴露组学指标检测了。

从研究设计、调查培训、基线纳入、问卷调查、体格测量、生化检查,到生物样本采集、运输、管理,再到数据录入、清理、管理,以及与相关系统的关联和整合等,各个环节都需要多领域人才的合作和投入,更需要学术界、企业、政府乃至全社会的支持。

(六)伦理保密的新标准

另外,个体数据部分的知情同意(如只允许使用被研究对象的相关信息中的一部分)、知情同意更新(如嵌套研究的开展)、知情同意的转移(如被研究对象因特殊情况需要转移知情同意)、受试者保护体系(如知情同意的研究过程评价),个体数据保密性(如配套保密措施的建立)等,公民对于自身隐私、知情、知晓、同意等合法权益的意识越来越强,一系列新标准的提出对于Mega cohort来说,既是挑战,更是基础。

五、总结

Mega Cohort并不是一种新兴的概念、研究或方法,也不是简单地“把小研究做大”的机械扩增,而是基于时下不断增高的客观健康需求,在各方面条件(理论、实践、信息科技、生物医学技术、资金人力及其他可利用资源)都相对成熟的前提下,形成的一种开放友好且可持续发展的大规模综合平台。

Mega Cohort的出现和发展不仅跨越了过去传统宏观“大”研究与微观“小”研究难以有机结合的鸿沟,更促进了学科交叉、技术融合、平台共享等先进理念的实践。更为重要的是,Mega Cohort标志着生物医学领域大数据时代(The Age of Big Data)的到来。因此,我们需要利用流行病学超大规模队列研究(Mega Cohort)以驱动发现和影响决策,并期待它能带给21世纪生物医学界革命性的突破。