第一篇 面向世界科技前沿
生物医学大数据的态势与展望
赵国屏 李亦学 陈大明 熊燕
摘要
本文追溯了生物医学大数据研发与转化应用的发展历程。首先尝试从学科发展的角度,综合阐述生物医学大数据的复杂内涵。在此基础上,力图展示生物医学大数据在生命科学研究、医疗健康机构、生物技术与生物医药行业中的影响及其对经济和社会发展带来的机遇。通过以生物医学大数据在应对新冠肺炎疫情中发挥的作用及反映的问题为实例,总结了相关实践的经验教训,并进一步立足我国国情,结合上述分析,提出了相关的政策建议和解决方案。期待这一在总结历史实践基础上的理性思考和心得总结,能为我国生物医学大数据的管理部门、研究与应用单位,以及广大的参与者与应用者提供有益的参考,亦欢迎读者提出各种意见和建议。
关键词
生物医学大数据;学科内涵;大数据服务平台;大数据管理体系;大数据转化应用;多学科交叉人才
Abstract
With the focus on the evolving trajectory and applications of Biomedicine Big Data (BMBD),this forward-looking review portrays broad impacts of BMBD upon areas such as engineering system for data management,scientific and technological research and development,and social and economic transformation.The review starts with an elaboration on the complex connotations of BMDB from the inter-disciplinary point of view.It then explores the implications of BMDB,in the connection with the challenges and opportunities faced by social and economic development,in sectors of life science research,medical and health institutions,and biotechnology and bio-medicine industries.The recent COVID-19 outbreak is used as an illustrative case study.The review ends with an analysis of a decade of BMBD practice,both domestically and abroad,with suggestions for policy-making and solutions for tackling major challenges from China's perspective.It is hoped that any BMBD-related institutions,practitioners and users will benefit from this insightful summary of BMBD.Critical comments and constructive suggestions are sincerely welcomed by the authors.
Keywords
Biomedicine Big Data (BMBD);Knowledge Connotation;Service Platform;Management System;Transformation and Application;Interdisciplinary Talents
20世纪90年代以来,基因组学革命不仅让“数据”成为生命科学研究的重要基础,而且使人成为生命科学研究的重要对象。系统生物医学研究、转化医学研究和精准医学实践,产生了既具有体量大(Volume)、增速快(Velocity)、类别多样性(Variety)和真实性(Veracity)的“4V”特征[1],又具有高维度(High Dimension)、高度复杂性(High Complexity)和高度不确定性(High Uncertainty)的“3H”特点[2]的“生物医学大数据”。
生物医学大数据兼具生物学(生命科学和生物技术)、医学(包括药学)和数据科学(信息科学与计算科学)的内涵,亦可按数据来源归纳为生物医学数据与环境数据两大类。其中,生物医学数据大致涵盖基础生命科学、组学和系统生物学、生理心理学、认知行为学、临床医学、公共卫生、医药研发等领域的数据;环境数据大致涵盖社会人口学、环境暴露数据等。生物医学大数据的核心是研究型数据,它来自针对群体的系统生物医学和转化医学研究,亦来自针对个体的精准医学研究。
目前,生物医学大数据正在成为促进现代生物医学向数据密集型研究范式演进转化的最重要的基础支撑。生物医学大数据领域方兴未艾,但由于其兼具科学与社会学双重性,涉及从原创到应用的转化、管理与共享的协同,发展中也面临诸多交叉性、系统性的问题。解决这些问题,极为复杂,极具挑战,必须从科技工程与社会工程两方面双管齐下;亟须从国家层面,建设权威、整合与布点结合的“生物医学大数据基础性科技服务平台”,长期稳定地为全社会提供“标准化质控整合、智能化交互共享、高效率计算分析和场景化深度挖掘”四个层次的公益性、工程化的第三方基础性科学服务。
1 生物医学大数据的发展历程和内涵
物理学和天文学的研究一开始就离不开“数”。20世纪以来,两个学科积累的数据已经超过EB级,且两个学科率先跨过“实验验证”“理论分析”“计算模拟”阶段,进入“大数据”时代。化学与“数”的关系,在最初的元素发现阶段并不明显。门捷列夫元素周期表突破性地发现了原子序数与元素化学性质之间的周期性规律,把化学从纯粹的实验科学提升到计算与理论科学的高度。在此基础上形成的化学工程科学,理性、规模化地改造自然物质,有效服务人类经济社会的发展。
生物学(Biology)是与“数学”关系最为微妙的一门自然科学。早期(17—18世纪)的生物学是一种以描述人为“分类”为主的“博物学”。19世纪末至20世纪初,随着细胞学、生物化学和遗传发育学的建立,生物学发展成为通过实验验证,探索生物体共同结构及其功能的生命科学(Life Science)。20世纪中叶,随着以DNA双螺旋模型到中心法则和转录调控解析为代表的分子生物学(Molecular Biology)的发展,以及以蛋白质高级结构解析为代表的结构生物学(Structure Biology)的兴起,数学与数据在生物学研究中开始发挥重要作用。由于主要的研究对象集中于单个或数个生物分子,生物数据的积累极为有限,数据之间的关系(信息)亦较为简单。因此,那个时代催生的“定量生物学”(Quantitative Biology)[3]和“计算生物学”(Computational Biology)[4],在很大程度上是作为生物研究的辅助性“工具”,并没有成为生物学主流的研究范式。
1.1 生物医学大数据的生物学内涵
20世纪90年代开展的“人类基因组计划”,第一次实现了对代表人类主要族群的5个个体的全基因组测序[5]。这一生命科学领域“大科学”研究的特点,在于所测定的化学分子不仅仅是ACGT 4种碱基,而由成千上万个碱基所排成的一维数字序列,就组成了复杂的“生命密码”的携带者,也就是一个物种的基因组。正是由于基因组测序的本质就是确定ACGT的一维排列顺序,高通量并行化的计算机科学理念被有效地应用到了测序策略的制定上,形成了从高通量短序列检测到利用数学和计算科学方法实现大片段乃至染色体拼接的基本程序,再加上对基因组序列结构与功能的注释,生物信息学(Bioinformatics)应运而生。快速积累的基因组序列与注释信息可高效指导系统的实验研究,成为生命科学研究必不可少的基础;二者的紧密结合,就形成了包含“计算科学”与“理论科学”研究范式的系统生物学研究体系。
新一代核酸测序、质谱和生物芯片等高通量、并行化检测技术的飞速进步,推动了基因组、转录组、表观遗传组、蛋白质组、代谢组和表型组等“生命组学”的快速发展,为发起以生命科学与医学为目的的大科学研究计划创造了条件,生物学数据也因此在“质”的高维度提升的基础上,形成了“量”的急剧增长[6],其积累迅速推进到与天文学和物理学并列,达到PB级(1015),真正进入大数据学科行列。对生命科学数据的系统收集、质控、注释、分析、整合、应用,以及在此基础上进行生物系统模型的建立与模拟,进而实现定量描述和预测生物体功能、表型和行为,就是生物医学大数据的生物学内涵。
1.2 生物医学大数据的医学内涵
医学既是通过科学技术及心理和人文关怀等一系列手段来诊断、治疗和预防人体的各种疾病的实践,又是在总结临床实践经验中不断发展的应用科学。现代医学在充分利用生物学实证和生命科学实验带来的科学知识的基础上,建立了包括基础医学、临床医学和预防医学等分支学科的科研体系,自然也积累了相当的医学科研数据。
20世纪中叶,医学与药学充分利用现代生命科学的理论和生物技术及其他相关科学技术,发展了现代药学、医学影像学、免疫与分子诊治技术等一系列科学技术领域,由此形成了现代“生物医学”(Biomedicine)学科和研究方向。与以生物为研究对象的生物学,以及以生物体共同的结构功能、普遍运动规律为研究对象的生命科学不同,生物医学是以人的健康和疾病为研究对象的;也就是说,以人为研究对象,是生物医学区别于生物学和生命科学的核心特点。
以基因组数据为基础的系统生物学与医学结合而形成的系统生物医学(Systems Biomedicine),就是现代生物医学的核心内涵,促成了生物医学的革命性发展;在此后普遍推行的转化医学(Translational Medicine)实践,也成为现代生物医学最重要的研究平台。正是系统生物医学和转化医学研究,造就了生物医学大数据。当然,生物医学大数据中的生物医学数据,必然超越这两个方面。
美国国家研究理事会(NRC)2011年在其报告中提出“精准医学”(Precision Medicine Initiative)的理念。虽然“精准医学”的概念,是在转化医学“4P”特征(预防性/Preventive、预测性/Predictive、个体化/Personalized和参与性/Participatory)的医学模式基础上发展形成的,但其更核心的内涵是:树立以个人基因组为基础,结合转录组、蛋白组、代谢组等相关内环境信息,为病人量身设计治疗方案,以期达到治疗效果最大化和副作用最小化的“定制”医疗理念;它强调在人类基因组数据与患者的生活环境、生活方式及临床数据结合的基础上,实现考虑到每个人的基因、环境和生活方式等个体化差异的用于疾病的预防和治疗的新兴医疗方式。这种以个体(n=1)及个体集()“小样本”为对象的,将多组学研究技术与临床数据结合产生的研究型“大数据”,将成为生物医学大数据的重要资源。
可见,当代医学/药学与现代生物学结合形成的系统生物医学研究体系和转化医学研究平台,产生了海量复杂的群体层面的“生物医学大数据”;把这些数据转化为信息和知识,通过“精准医学”的保健与医疗方式服务于个人,并以此“真实世界数据”为基础产生更多个体层面的研究数据,就是生物医学大数据的医学(健康科学)内涵。生物医学大数据的来源与学科内涵、各部分之间的相互关系以及与现代医学研究实践的关系如图1所示。
图1 生物医学大数据的来源与学科内涵、各部分之间的相互关系以及与现代生物医学研究实践的关系
生物医学大数据的来源主要包括生物学与医学两部分;贯穿其中而且最为核心的,是生命科学与生物医学的研究型数据。这些数据具有学科高度交叉的特征。生命科学中极其重要、极为基本的生命“组学”数据,构成了系统生物医学数据的最主要基础。正在迅速发展的微生态与微生物组数据,综合了生物学及其相关的生态学和环境科学数据(其中亦含有与社会相关的数据,特别如流行病学数据)。生物医学研究型数据的核心,涵盖了系统生物医学、转化医学和精准医学研究所产生的数据。这些数据也反映了生物医学这个研究领域的相关情况,涵盖了其研究对象从作为生物学的“人类”群体到作为社会学的“人”的个体的一个非常特殊又非常重要的事实,它也自然联系到人在其生活的社会与自然环境中与健康相关的数据,即从单纯的“环境数据”到人在环境中的“暴露组”数据。随着大数据技术的不断发展以及生物医学研究场景日益从实验室向现实世界扩展,研究型的生物医学大数据必须与人类群体相关的“客观世界数据”和与人个体相关的“真实世界数据”紧密结合,以有利于为人类社会(个体和群体)的健康做出实际的贡献。
1.3 生物医学大数据的数据科学内涵
从“生物学到生命科学、医学到生物医学”这两个发展脉络基础上厘清了“生物医学大数据”的生物学与医学内涵,也可以进一步厘清两个层面的“数据性质”。第一,生物学和医学的客观世界数据,即动植物、微生物的生物学数据以及人类自身的临床“医学”和体检“健康”等数据。该层次的数据本质上是海量的“真实世界数据”(Real World Data),具有重要的研究及应用潜能,但其量大质杂,需要长期的系统性积累和标准化管理,并与研究型数据进行交互整合的综合分析,才能实现其研究价值。第二,与人类及医学和药学相关的“研究型数据”,即为研究目的而采集的数据。首先是以人为对象的系统生物学研究,包括基于“组学”技术的生物医学大科学研究计划产生的数据。其次是转化医学研究数据,包括人群队列研究数据和循证医学研究数据,以及以人类疾病模型和药物研发为目的实验动物数据,即比较医学(Comparative Medicine)数据。此外,在药物研发过程中,在吸收、分布、代谢、排泄和毒性(ADME/T)评价以及药物计量学和药代计量学分析等新技术的基础上发展起来的定量与系统药理学(Quantitative and Systems Pharmacology)研究,产生的药物-靶标关联等多靶标药物发现研究数据,也是宝贵的资源。相对第一层次,第二层次的数据虽然“样本有限”,但具有“高维度、结构化,有设计、有质控”的优良特征,直接涉及人类健康与疾病以及相关的医学与药学研究,对国家安全和社会经济发展具有重要的现实与长远意义,因此,在当下就更凸显其重要性和敏感性。
半个多世纪以来,通过分子生物学革命和基因组学革命,生物医学数据迅速出现了具有“大数据”特征的多重转变。一是从“小数据”到“大数据”的转变。高通量实验技术的突破、医学信息化的应用、真实世界数据的生成,把生物医学数据从以基因组为代表的PB量级时代,推升到多组学与健康医学数据融合的EB量级时代,乃至全面融合的ZB量级时代。二是从“低维度”向“高维度”的转变。各类组学数据和影像数据、体外诊断数据、连续监测数据、临床试验数据、临床记录数据等汇交,进而实现系统性的分析,为生物医学大数据带来更丰富、更深入、更复杂的内涵,生物医学数据的维度也不断丰富。三是从“单一尺度”到“多尺度”的转变。生物医学大数据的发展,将生命科学研究产生的分子、细胞、组织、器官、个体等多层面、多维度数据,与基于医学观察而进行的人群队列、分子流行病学、真实世界研究(Real World Study)等长时间、广空间的数据相结合,使得“分子—细胞—器官—个体—群体”的生物医学数据汇聚,人类得以从更多层面重新认识生命和疾病的本质。这些转变所赋予的“4V”与“3H”特征,对生物医学大数据的充分利用提出了一系列全新的数据挑战[7],由此产生的“用数据的方法研究科学”和“用科学的方法研究数据”的科学发现的模式转化[8],就是生物医学大数据的数据科学内涵。
生物医学大数据与上述生物学、医学与数据科学内涵的汇聚,决定了它对于生命科学和医学从研究到实践的重要作用,也决定了其事关国家社会安全与全民福祉的战略资源特征。因此,生物医学大数据的研究与应用受到世界各国的高度重视,近年来发展迅速。
2 生物医学大数据的发展现状与态势
当前,生物医学大数据的价值已成为各界乃至全社会的共识,生物医学的发展已经进入“数据密集型科学发现”(Data-Intensive Scientific Discovery)的“第四范式”[9]时代。为此,国内外对生物医学大数据整合管理与研发应用的布局诸多,既有相当的积累和经验,也有不少教训需要反思。大致来说,数据转化为信息,推动科研进步和知识增长,进而通过“精准”的保健与医疗方式服务于个人和社会,需要四个层面的协同。一是数据层面的协同,通过数据科学技术,实现各个层面数据的安全收集、存储、整合和管理。其中,标准化的质量管理依然是一个挑战(对于非英语国家尤为不易)。在保证数据安全基础上的高效利用方面,区块链数字身份或可成为新的底层基础技术之一,促成数据“管理”向数据“治理”的转变。二是信息层面的协同,利用各类信息工具和软件解析数据的相互关系,进而从有效性、代表性和完整性等方面提升数据质量,保障高效有序的数据交互共享。这其中,统一的接口规范或许是稳定的数据报送、分析和反馈的基础。三是知识层面的协同,通过因果关系等机制解析,将生物医学信息转化为精准医学知识图谱。其中,统一的生物医学术语、分类和编码标准的作用是促进更有效地实现生物医学层面的互操作,而技术参考模型的作用是更有效地实现信息框架层面的互操作,其最终的作用是将疾病知识图谱更好地用于临床决策支持。四是应用层面的协同,通过“深度患者”(Deep Patient)研究等为科学研究、健康医疗产品开发、临床实践和医疗管理、公共卫生和健康管理提供支撑。唯有多个层面的协同联动,才能建立起整合生物医学大数据的统一平台,实现对患者个体数据的可追溯,进而真正发挥生物医学大数据的价值。
2.1 生物医学大数据的研究开发现状与态势
1.欧美和日本等国家(地区)的生物医学大数据研究开发现状与态势
美国、欧洲和日本的科学研究机构自20世纪80年代、90年代启动生命科学数据库建设并坚持至今,积累了大量生命科学数据,为全球生命科学数据共享做出了贡献,也极大地推动了本国的生命科学研究。其中,日本国家遗传学研究所(NIG)负责管理的日本DNA数据库(DDBJ)始建于1986年;管理Genbank的美国国家生物信息中心(NCBI)始建于1988年;欧洲生物信息学研究所(EBI)于1980年为欧洲分子生物实验室(EMBL)建立的数据库,即核酸序列数据库(ENA),自1992年起,隶属EBIUK。1988年始建的国际核酸序列数据库合作联盟(INSDC)在推动核酸数据库之间数据的标准化收集、汇交与共享等方面发挥了作用[10]。
目前,NCBI与EBI已成为全球公认的两大数据中心,不仅涵盖生命科学基础数据,而且开始接收包含个体表型信息的基因型-表型数据,为转化医学和精准医学研究提供更直接的数据支撑。例如,NCBI已经从Refseq(参考序列、基因与蛋白质)、Pubmed (摘要文献)、PMC(全文文献)、NCBIGene(参考基因)、GEO(转录组)、Pubchem (小分子)等基础研究数据扩展至dbGap(疾病和表型)等数据。EBI的数据库不仅涵盖UniProt(蛋白质序列)、InterPro(蛋白质二级结构)、ExpressionAtlas(转录组)、PRIDE(蛋白质组)、Ensembl(基因组)和ChEMBL(小分子化合物)等基础数据,还包括EGA等疾病数据。
在医疗数据平台方面,EBI通过在EMBL参与国建立当地节点,建设了数据与信息共享的基础设施ELIXIR。英国医学研究委员会(MRC)发起的医疗信息化平台(eMedlab),集成和共享来自个人的医疗记录、影像、药物信息学和基因组学的异构数据,同时还与英国国家医疗服务体系(NHS)的医疗保健信息相对接,以全面了解健康和疾病进展情况。2017年,英国成立与eMedlab密切相关的国家健康数据科学研究所[11](HDR UK),通过大规模健康数据的分析与应用,进一步促进科研与医疗的紧密结合。
欧美等国家(地区)通过从生物学到临床医学的大数据,推动开展有特色的临床与基础研究相结合的转化医学研究并指导临床实践,取得了令人瞩目的科研成果,推动了医疗水平的提升,也为新的生物医学知识体系的形成奠定了基础。
2.我国生物医学大数据的研究开发现状与态势
20世纪90年代,我国科技界就认识到科技数据汇交共享的重要性。1994年,徐冠华、孙枢、孙鸿烈三位院士提出地学数据共享的呼吁。1999年,郝柏林院士在写给国务院的建议书中,提出建立“国家生物医学信息中心”的建议[12]。2002年,为实现对科学数据资源的规范化管理和高效利用,我国开始全面筹划科学数据共享,并于2003—2005年实施了“国家科学数据共享工程”。该工程是国家科技基础条件平台的重要组成部分,由“主体数据库、科学数据中心或科学数据网、门户网站”构成三级结构的数据管理与共享服务体系。《国家中长期科学和技术发展规划纲要(2006—2020年)》也指出,要“加强科技基础条件平台建设,建设重点包括国家研究实验基地、大型科学工程和设施、科学数据与信息平台、自然科技资源服务平台,以及国家标准、计量和检测技术体系等”[13]。
“十一五”至“十三五”期间,国家各部委、科研院所、医疗机构等相继开始生物及医学健康相关的数据中心建设。
“十一五”期间,国家有关部门开展了国家科技基础条件平台的建设工作,科学数据是其六大领域之一。其中,中国医学科学院负责建设中国医学科学数据共享网,中国科学院负责建设生命科学数据共享网。科技部发布的《国家“十二五”科学和技术发展规划》也提出,“进一步完善不同领域和行业的科学数据库建设,扩大数据汇交试点,促进科学数据共享”[14]。“十三五”以来,“国家科学数据中心”的建设加速,包括中国科学院基因组研究所的“国家基因组数据中心”、中国科学院微生物研究所的“国家微生物科学数据中心”和中国医学科学院的“国家人口健康科学数据中心”等。
2015年,三十多名生物信息领域的相关院士和专家,总结我国二十多年的经验教训,提出了“我国亟待建设国家生物信息中心的建议”。2016年,中国科学院上海生命科学研究院和上海市共同提出的“国家生物医学大数据基础设施”的建议方案,被国家发改委正式列为《国家重大科技基础设施建设“十三五”规划》的五个后备项目之一[15]。同年,中国科学院上海生命科学研究院生物医学大数据中心成立,与“张江实验室”合作开展预研工作,并于2018年获上海市支持启动二期预研。2019年年底,中国科学院启动“国家生物信息中心”建设工作。
2016年以来,在原国家卫生计生委牵头下,开始逐步实施“1+7+X”健康医疗大数据应用发展总体规划,建设一个国家数据中心,七个区域中心:福建(福州、厦门)、江苏(南京、常州)、山东、安徽和贵州,并结合各地实际情况,建设若干个应用中心。目前,济南中心规划投资规模最大;南京中心和福州中心正在建设,其中南京中心以基因数据库建设为先导,福州中心以医院医疗数据的汇集存储为主。其余各试点省份也先后出台支持政策和实施方案,加快推进医疗大数据中心的建设。
与此同时,大学、医院、企业、科技协会及国家科研机构开始积极建设生物医学大数据研究机构,主要包括万达信息与中国人民解放军总医院、中南大学共同承建的“医疗大数据应用技术国家工程实验室”;中国科学院大学、中国疾病预防控制中心、中国卫生信息与健康医疗大数据学会三方共建的“中国科学院大学健康医疗大数据国家研究院”;北京大学设立的“北京大学健康医疗大数据国家研究院”等。
尽管我国在生物医学大数据中心的建设上取得了长足进步,但整体上看数据仍处于分散管理的状态,对生物学与医学二元内涵的复杂性、数据科学内涵统一性认知有所不足,这也导致数据的开发、标准化体系建设、专业化服务等方面有所欠缺,还需要在机制上进一步完善,在能力建设、团队建设上进一步提升。
2.2 医疗卫生机构的生物医学大数据开发利用现状与态势
1.美国、英国和德国医疗卫生机构的生物医学大数据开发利用现状与态势
医疗大数据涵盖了患者诊疗、健康档案、电子病历、医学影像、医药医保等海量、真实、连续的医疗健康数据,其中电子病历是医疗卫生机构推动大数据应用的基础。2007年,卫生信息交换标准组织(HL7)委员会发布《电子病历系统功能模型(EHR-SFM)》,该标准获得了美国国家标准局的批准。2009年,美国出台《卫生信息技术促进经济和临床健康法案》(HITECH),鼓励临床医生和医院积极使用电子病历系统。此后,诸多医院或机构加速推动临床数据的集成和应用。例如,贝斯以色列女执事医疗中心等医疗机构于2010年参与“医生病历记录共享”(OpenNotes)项目[16]。梅奥诊所等于2011年起大规模投入大数据的采集、相关标准的制定等基础性工作。
英国于2013年启动医疗大数据平台care.data的建设,采集医院、家庭医生对患者的医疗记录,以实现数据的集成和利用。由于与各相关方的沟通不畅、规则方面未理顺等原因,英国国家医疗服务体系(NHS)于2016年停止了该计划。在吸取care.data的教训之后,NHS进一步推进在全英国实现电子病历的进程,以期在医疗大数据时代更好的发展。
德国近年来一直努力推进医疗数字化进程。2015年,德国通过《电子医疗法案》,加速电子病历等的推广。2019年,《数字供应法》通过,允许医生对患者进行在线视频问诊、在手机应用程序上记录处方,同时推广电子处方、电子病历、电子病假条,这将为医学数据的采集、集成和管理提供极大的便利[17]。
以电子病历为代表的医疗数据的采集、存储、整合和管理仅仅是基础,要将其转化为有价值的信息和知识,还需进一步的分析和计算。总体上看,目前医疗数据的价值尚未充分挖掘,医疗、生物、环境和行为等多方面数据的系统整合和分析还未实现。
2.我国医疗卫生机构的生物医学大数据开发利用现状与态势
2006年开始,我国不少省份便开始区域卫生信息平台的建设,整合区域内医院、基层卫生机构、公共卫生的各类数据,形成以个人为中心的电子健康档案库。2009年开始的新一轮医药卫生体制改革,进一步推动了全国医疗信息化工程的建设步伐。
2006年,上海申康医院发展中心在沪启动医联工程,实现了为就诊患者建立统一电子病史资料、跨医院诊疗信息实时交换共享等功能。目前,医联工程已覆盖上海市级公立医院38家,可与16个区域级基层医疗机构进行联通。在此基础上,上海申康医院发展中心推进医联工程二期建设,全面推进市级医院结构化电子病历建设,建成符合临床一线需求且达到国家较高应用标准的电子病历系统,并基于物联网、边缘计算等新技术,打造覆盖上海市市级医院的重点设备及医疗资源的信息化管理体系,建立了覆盖整个医疗管理体系的互联网大数据平台。
北京天坛医院参考美国国立卫生研究院(NIH)/国立神经疾病和卒中研究所(NINDS)的通用数据元,建立统一的脑血管病数据标准和基于登记的临床研究队列——中国国家卒中登记研究。目前,北京天坛医院已经建立起由社区队列、临床队列、多中心临床试验和临床影像数据库等组成的高质量临床研究大数据。其中,最具代表的国家卒中登记研究Ⅲ,建立了超过1.5万人的脑血管病精准队列,基线收集了超过5000个临床表型、高分辨影像和组学数据。
宁波市鄞州区卫生健康委作为国家疾控中心信息化试点单位之一,2006年启动建设区域全民健康信息平台和电子健康档案,建档率达到96%以上。截至2016年,宁波市鄞州区升级完成了覆盖全区的健康大数据平台。鄞州区疾控中心还与国家疾控中心合作建立了基于大数据平台的智能化居民健康指标评估系统,实现了主要健康指标的实时自动收集、处理、汇总和展现。
2.3 信息技术企业的生物医学大数据开发利用现状与态势
1.国外信息技术企业的探索:布局和丰富生物医学大数据的应用场景
国外信息技术企业在生物医学大数据的探索,可分为医疗信息化、消费级健康产品和服务、数据应用、标准开发、服务器设施及服务等方面。
在医疗信息化方面,Epic System、Cerner在美国的电子病历开发等方面占据领先的市场优势,近年来它们在患者数据和医疗数据整合的基础上,向云服务、人工智能等方面进军,以期将数据转化为更有价值的信息和知识。
在消费级健康产品和服务方面,亚马逊基于人工智能开发了健康产品Alexa,其智能语音服务可提醒老年人服药和进行血压管理等,还能为住院患者提供医疗信息服务,帮助用户理解医疗术语和与医疗相关的关键信息,获取药物剂量信息和常见疾病信息等[18]。谷歌公司Alphabet旗下的生命健康公司Verily注重基于人工智能的医疗解决方案的开发,其开发的智能手表已获得美国食品和药品管理局(美国FDA)的认证许可。
在数据应用方面,为将大数据应用于医学科研场景,谷歌不仅与诺华、大冢、辉瑞和赛诺菲等医药企业建立合作,还与杜克大学、斯坦福大学等开展项目合作。
在标准开发方面,苹果是“快速医疗保健互操作性资源”(FHIR)技术的主要推动者。FHIR为不同的数据元素创建标准,以便开发人员构建应用程序编程接口(API),用于访问来自不同系统的数据集,解决数据的互操作性难题。
在服务器设施及服务方面,国际商用机器公司(IBM)一直是医疗数据服务的供应商;亚马逊和谷歌不仅为科学家提供基因组数据存储服务、数据分析服务,还加速布局与健康相关的数据采集业务。
2.国内信息技术企业加紧生物医学大数据的开发与应用
在生物医学大数据的应用需求、分析技术和工具的进步以及相关政策的驱动下,我国信息技术领域的企业纷纷布局生物医学大数据,生物医药企业积极与信息技术企业合作,拓展生物医学大数据的应用。
万达信息深耕“三医联动”领域多年,卫生业务覆盖全国20个省份,其中上海市健康信息网工程实现了近600家公立医疗机构之间信息的互联互通互认。万达信息基于上海阳光医药采购平台,承接了国家级“4+7药品招采平台项目”的信息支撑工作。健康云是省市级“互联网+医疗健康”总入口,为百万慢性病患者提供闭环管理服务。
神州数据医疗主要服务于各类医疗机构,在健康医疗大数据、医疗云服务、医疗卫生信息化及精准医疗四大核心领域深度布局,提供包括健康医疗大数据平台、云影像平台、医院信息集成平台及精准医疗平台等下一代医疗信息化整体解决方案。
华为通过数字医院、区域卫生信息化、分级诊疗等医疗解决方案的提供,以及可穿戴设备的开发,正为“全联接医疗”的生态体系构建开展体系化的技术研发[19]。
平安医疗科技和中国医学科学院医学信息所共同构建中文医疗知识图谱,通过核心医学概念的全面覆盖、医疗生态圈内全方位知识数据的聚合,打造一体化平台。
腾讯不仅在医疗领域投资了杏仁企鹅、微医、好大夫等企业,还通过与复旦大学附属肿瘤医院合作成立国内首个基于大数据和人工智能的肿瘤专科联合实验室[20]。
阿里云的服务支撑了健康大数据的“基础设施”,与阿里健康共建ET医疗大脑2.0,在临床、科研、培训教学、医院管理、未来城市医疗大脑五大场景上集中发力。
2.4 生物医学大数据政策管理现状与态势
当前,生物医学大数据的意义已成为全球共识,与之相关的网络安全、互操作性、数据信息可靠性、云设施、综合分析和预测建模、信息管理工具、公众参与和隐私等主题也得到广泛关注和讨论。
1.美国和欧洲的生物医学大数据政策管理现状与态势
近年来,美国和欧洲等国家(地区)在医疗数据管理方面相继出台诸多政策,以逐步完善其管理体系。美国2016年通过的《21世纪治愈法案》(21st Century Cures Act),在《联邦食品、药品、化妆品法案》中增加了一节,根据这一节的要求,美国FDA需要创建“真实世界证据”(Real-World Evidence,RWE)的评估框架,帮助已上市药物扩大适应症。2018年,美国FDA又发布《真实世界证据方案框架》,建议使用RWE,并充分发挥RWE在审批监管决策中的作用[21]。同年,美国FDA发布《临床研究中使用电子健康记录数据的行业指南》,鼓励医疗保健提供者、组织和机构在临床研究中与临床研究人员合作,将电子病历用作临床研究的数据来源,提高数据准确性和临床试验效率。美国国立卫生研究院(NIH)2003年就制定了《数据共享政策和实施指南》(Data Sharing Policy and Implementation Guidance),要求每年申请经费在50万美元以上的NIH的科研人员提交最终研究数据的共享计划或说明[22]。2019年,NIH开始更新2003年的政策,要求首次获得NIH 资助的所有科研人员都要提交包含保护研究对象隐私的详细的数据共享计划[23]。为推进精准医疗计划的实施并保障信息安全,由白宫科技政策办公室、卫生和公众服务部,以及NIH共同领导的跨部门小组制定了精准医疗的《隐私与信任原则》,以此对医疗数据的使用进行管理[24]。
2018年5 月,《通用数据保护条例》(General Data Protection Regulation,GDPR)在欧盟正式生效。该条例为个人提供了访问权、修订权、删除权、限制处理权、数据移植权、反对权,以及与自动化决策和分析等有关的权利,将个人数据保护法的门槛提升至更高的管理层级,使个人资料更安全、患者档案更详细、患者掌控程度更高、数据源更新、预防更有力。同时,数据主体有权要求清除其个人数据,有权要求更正不准确的个人数据,有权得到结构化和机器可读格式的数据复制,有权针对其个人数据的处理或要求停止处理个人数据[25]。
2.我国的生物医学大数据政策管理现状与态势
我国在生物医学大数据的管理方面,也出台了一系列的政策措施。2016年,国务院办公厅印发《关于促进和规范健康医疗大数据应用发展的指导意见》,提出到2020年建成国家医疗卫生信息分级开放应用平台,实现与人口、法人、空间地理等基础数据资源跨部门、跨区域共享,使医疗、医药、医保和健康各相关领域数据融合应用取得明显成效。国家卫生健康委员会2018年发布的《关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知》,强调了大数据的作用,对数据互联互通提出了要求,同时还要求严格执行信息安全和健康医疗数据保密规定。同年,国家卫生健康委员会又印发《国家健康医疗大数据标准、安全和服务管理办法(试行)》,旨在在保障公民知情权、使用权和个人隐私的基础上,促进健康医疗大数据的规范管理和开发利用。全国人大2018年9月将《数据安全法》《个人信息保护法》等列入十三届人大常委会五年立法规划。这两部立法未来将为数字经济发展提供更有力的法律保障,我国个人信息保护将进入全新阶段。2018年,国家卫生健康委员会发布的《关于印发电子病历系统应用水平分级评价管理办法(试行)及评价标准(试行)的通知》,提出“到2020年,所有三级医院要达到分级评价4级以上,二级医院要达到分级评价3级以上”的要求。2019年,国家卫生健康委员会、国家中医药管理局发布的《全国基层医疗卫生机构信息化建设标准与规范(试行)》,明确了基层医疗卫生机构信息化建设的基本内容和要求。同年,国家卫生健康委员会办公厅发布的《医院智慧服务分级评估标准体系(试行)》,为科学、规范开展智慧医院建设提供了分类标准。
2.5 生物医学大数据在新冠肺炎防控中的应用:展现潜力,启迪发展
2003年,非典性肺炎(SARS)导致全球8000多人感染。基于基因组研究的积累,人类以最快的速度认识了疾病,并控制了它的发展。此后,“会聚”研究、“精准医学”得到了广泛重视,基于“大数据”的个体健康与社会安全成为共同的追求。然而,新型冠状病毒感染的肺炎(COVID-19)疫情突然暴发,至2020年4月初已蔓延至200多个国家,全球累计确诊病例超百万例,再次给全球带来历史性的重大挑战。此次抗疫中,基因组技术最先提供了病毒的全基因组序列[26,27],为病毒的诊断[28]与流行病学分析[29]提供了保障;而来自蝙蝠[30]与穿山甲[31]的类似病毒的基因组测序,又为病毒的动物源性的研究提供了基础的参比数据。当然,在今天这个时代背景下,基因组及其他生物医学技术在抗疫过程中作用的发挥,包括疫情发现、传染规律研判与防控决策,以及检测、诊断、治疗等措施落实诸方面,都得到了“大数据”特别是生物医学大数据体系强有力的支撑,而生物医学大数据体系,也在实战中展现了潜力,发现了问题,更启迪了今后的发展。
抗疫伊始,大数据便在疫情监测、密接者筛查、流行病学调查等方面及时提供数据和信息,并发挥了重要作用。中国疾病预防控制中心通过其维护的新型冠状病毒肺炎专栏,发布技术方案、文献报道等信息,动态更新国内疫情变化以及世界卫生组织的最新举措[32]。复旦大学公共卫生学院的流行病学与生物统计学团队组成突击攻关小组,收集流行病学相关的实时数据,并在公安和通信管理部门提供的人口流动信息等大数据的支持下,建立疫情预测预警模型,动态分析疫情发展趋势及区域间疫情扩散风险,为政府提供咨询意见。中国科学技术大学附属第一医院联合科大讯飞医疗信息技术公司用大数据和智能语音相关技术,从500多万份社区/基层病例记录中筛选出可疑的感染人群;再利用智能语音外呼系统对重点人群进行新冠肺炎相关知识的宣教和语音随访,完成部分人群的传播链重构[33]。数据企业还积极开发相应的产品,例如,阿里巴巴智能社区疫情防控小程序等10多个产品入选民政部的新冠肺炎疫情社区防控信息化产品(服务)清单。
随着疫情的发展,病毒朔源与病毒进化、疾病传染途径与疾病流行规律、疾病防控措施的可靠性等问题被提上议事日程,这与基因组等病毒生物学的数据密切相关。中国科学院北京基因组研究所(国家生物信息中心)建立的2019新型冠状病毒信息库,涵盖了病毒基因组序列发布动态、病毒基因组变异数据分析、相关文献等[34];中国科学院上海营养与健康研究所生物医学大数据中心联合上海巴斯德研究所共同开发的病毒基因组自动化鉴定云平台,由华为云提供技术支撑,直接对接人体样本的RNA二代测序原始数据,具有对数据进行全自动质量控制、拼接和病毒组成分析等功能,并可在线分析其相对载量[35]。该大数据中心还同步开发利用机器学习的方法,开展千条基因组拓扑学实时分析,努力把病毒基因组序列从测定到分析形成完整的大数据体系。
生物医学大数据与临床结合,在智能医学影像、远程医疗、在线诊疗等方面发挥了积极作用。在国家全民健康保障信息平台项目中,华为与合作伙伴共同打造基础设施云平台及应用支撑平台,全面支撑公共卫生、医疗服务、医疗保障、药品保障等核心业务,以及电子健康档案、电子病历和全员人口等基础数据库。与临床诊治相关的患者数据的采集、管理和分析研究,是生物医学大数据中最关键、最艰难的瓶颈。中国科学技术大学附属第一医院与牛津大学联系,获得标准化临床流行病学研究方案及相应病例登记表(CRF)的授权[36],引进临床研究试验数据库系统REDcap[37],形成临床研究执行标准化流程(eSOP),并从8家合作单位收集整理了881例新冠肺炎患者的临床数据。
大数据的应用还加速了“老药新用”的筛选进程。例如,天津中医药大学利用中药组分数据库等进行组分筛选,发现了两种药材“对症”。再如,上海科技大学等联合其他团队利用人工智能药物虚拟筛选平台,对已上市的2900多个药物分子和上万个中药成分进行了筛选。
同时,政府与高校和科研机构专门开设了科研信息交流平台。清华大学联合中国工程科技知识中心等建立新冠肺炎开放数据源AMiner[38],整合了疫情、科研、知识、媒体和政策等方面的数据。科技部、国家卫生健康委员会、中国科协、中华医学会联合共建新型冠状病毒肺炎科研成果学术交流平台,不断更新汇总学术资源,推介优秀科研成果。
国家积极出台利用生物医学大数据支持抗击疫情的措施。国家卫生健康委员会医政医管局及时发布《关于印发新型冠状病毒感染相关ICD代码的通知》[39],为准确、有效地采集患者临床数据,以及高效汇集和分析临床诊疗数据提供了保障。
尽管生物医学大数据与基因组学技术相结合,在疫情防控中充分展现了巨大的科技潜力与社会影响力,然而其价值尚未充分发挥。只有正视存在的短板,才能更好地启迪今后的发展。在早期确诊、早期传播规律研判与防控决策、从临床检测到诊疗和防控措施的落实、研究工作的开展过程中,核心的挑战在于,如何对新发突发传染病的病情和疫情及时做出科学的判断或假说,而后才能较顺畅地结合研究样本开展“实践研究”,以验证或修正假说。对新发突发传染病这类新事物或新事件的认识主要有两个依据,一是目前显现的实际情况(信息),二是对过去的经验教训的总结(知识)。这些“信息”是“数据”之间的联系,而“知识”则是对大量“信息”的规律性或机制性“互作”关系的提炼。如果公共卫生、临床医学、科学研究数据总是以分散形态存储于不同的社会主体中,且存在数据接口标准难统一、数据管理规范难对接、数据多头采集难归集、数据管理部门权属职责难划分等管理难题,那么高效的互联互通体系就无法健全,最终会在相当大程度上限制社会、医疗和科研机构以及政府部门的全面分析及有效决策能力。
目前,疫情尚未结束,病毒致病机理、临床诊治预后、疫苗设计测试、新药研发创制等方面还存在众多未知的问题,有待基础、临床与防控三方的协同,在深入研究中给出科学的诠释与合理的解决方案。作为支撑所有工作的基础,数据(原始数据)和信息(各层次信息)的实时、快速、准确、全面、持续采集、分析及研判体系的建设,不仅对科学研究和临床实践,而且对于政府及时的科学决策,都至关重要,应尽早采取措施在正确的方向上迈出决定性的步伐。
3 对我国生物医学大数据发展的政策建议
生物医学大数据的发展,将促进生命科学研究进入数据密集型科学的新范式(包括合成生物学与会聚研究),将促进健康医学事业(转化医学与精准医学)、健康产业(营养学、药学和健康管理、干预)的发展,为全体人民的大健康,全社会的和谐,做出巨大贡献。面对生物医学大数据的挑战,建议从以下四方面入手,促进我国生物医学大数据的发展。
3.1 建设整合与布点结合的生物医学大数据基础性科技服务平台
从国家层面建设整合的“生物信息中心”的必要性,已经为国际上30年的实践所证明,其发展态势可谓日新月异。在从科研到应用都迅速进入生物医学大数据的时代背景下,在我国已经处于“广泛迫切需求”与“从头急起直追”并存的客观形势下,适应我国已有的建设“国家重大科学基础设施”和正在积极筹划建设“国家实验室”的有利条件,将建设“国家生物信息中心”“国家数据中心”“生物医学大数据基础设施”等各方资源凝聚到建设“整合与布点结合的生物医学大数据基础性科技服务平台”(以下简称“基础平台”或“服务性平台”)的方向上去,还需要更为深刻的认识和更高层次的谋划与规划。
(1)“整合与布点结合”是适应生物医学大数据兼具生物学与医学二元内涵的复杂性以及数据科学内涵统一性这种学科两重性的必然要求。同时,由于生物医学大数据具有复杂非结构化的“客观世界”以及系统有结构的“研究型”两个层次,因此,在研究转化层次上的整合与在开发应用层次上的布点的结合,也是由这个基础平台架构的科技与工程两重性所决定的必然要求。
(2)生物学或生命科学大数据最核心的价值及最具挑战的问题,基本体现在与医学和药学数据的结合上;而今天医药产业与健康产业的发展,又绝对离不开与生物医学科研数据的结合及有效利用。过去30年,生物医学大数据量的积累及其在研究与应用领域的拓展,已经将两者紧密地结合在一起,人为分割不是一种明智的选择。而在解决生物医学大数据问题的过程中,其他与生物相关的数据,如农业、生态、环境等方面的数据问题,也就不难解决了,因为这些数据的学科复杂性及社会复杂性都远不如以人为对象的生物医学数据。反思我国多年来在建立各级各类“数据中心”或“生物信息中心”的努力中,虽然采用“由易及难”的策略,始终局限于生物学或医学的单独领域,至今未能突破“名义统一,实质分散”的瓶颈,也成为效果有限的主要症结所在。因此,今天完全有必要也有可能将以往未能形成“各自”完整体系的“弱点”转化为“整合布点”的“优势”,以服务性平台的建设为契机,在更高的信息层次上,为今后的长远发展,奠定优质、高效的数据基础。
(3)生物医学大数据基础平台对特色数据库的支撑,是“整合与布点结合”的凝聚力所在。从“数据孤岛”到“数据烟囱”,既反映了在生物医学大数据方面“各自为战”不能统一的老问题,也体现了若干专业/地域在这个方向上积极进取,实现特色性发展甚至突破的新起色,有其自身存在的科学与社会的规律性。回顾国际发展历程,即便是生物数据共享最为成功的INSDC,各参与单位也是在采用一致的数据规范的基础之上,一方面各自发展独立的数据库,另一方面坚持数据库之间稳定、持久的实时数据交换。NCBI的物种分类数据库、基因数据库及其他众多数据库,已经广泛地为生命科学领域的各类特色数据库提供基准性的支撑,其中EBI在人类基因组结构与功能注释和微生物组特色数据库和知识图谱方面的建树,就是杰出的范例。因此,基础平台在坚持统一的数据标准规范的前提下,应鼓励各分布节点数据库在特色性发展的基础上的交叉与互补。基础平台不仅要为生物医学的终端用户提供服务,还要为特色数据库提供灵活的数据接口和数据交换服务,从而保证数据节点能够与基础数据平台形成共存共生的合作关系,这就是“整合与布点结合”的政策制度与规划特征。另外,正因为考虑到生物医学大数据面对的是多尺度、高维度、异质性复杂体系,其服务所针对的研究与应用场景又极为多样,各具特殊的时空特征;这种区域分布且爆炸性高速增长的特点与快速数据处理需求的时效性之间的矛盾也日益突出,基于云计算的网格式国家生物医学大数据基础支撑架构无疑是一个自然的选择。当然,这样新型的技术工程架构也必然具有“整合与布点结合”的工程技术规划特征。
(4)“服务性”是生物医学大数据平台最基本、最重要的使命(当然,不是唯一的使命)。大数据之所以受到普遍的高度重视,主要是因为其拥有的高价值;然而,由于生物医学大数据内在的复杂性以及数据产生的非标准性和保存取用的碎片化与孤岛化,价值密度是相对较低的。因此,需要国家建设统一的平台,秉承“安全管理,信息共享,技术创新,标准增值,尊重产权,高效利用”的宗旨,发挥“公益性”高科技基础设施的特色,全心全意做好服务工作。当然,平台,特别是平台的整合核心,自身不是也不应该是利用生物医学大数据的主体。唯有如此,才能够真正通过优质服务,赢得信任,树立权威。
(5)生物医学大数据有效应用的核心科学基础,是实现其标准化整合,交互性共享和智能型分析挖掘。这是平台为做好服务工作所必须具有的基础性科技能力,包括建立在标准化安全整合基础上的大数据仓库,利用快速专业计算设施支撑的交互共享网络体系,以及在高质量大数据与知识图谱结合基础上为整合分析提供智能化的应用场景。这一套由整合核心设施所建立的体系,还必须与各专业与地域节点互通,形成高效的生物医学大数据基础性科技服务平台(见图2)。
图2 生物医学大数据基础性科技服务平台:整合设施与地域专业数据中心布点
3.2 优化安全整合与交互共享结合的生物医学大数据管理体系
中国拥有世界第二大经济体量,同时作为一个负责任的人口大国,中国生物医学大数据的管理体系对世界有重要影响。近年来,我国在生物医学的各个主要层次,以及若干关键节点上,形成了一定的管理规范;但是,由于形势发展很快,又缺乏技术工程平台的支撑,需要在今后几年内,抓紧体系的优化。
首先,要认识生物医学大数据管理的目的是利用,特别是在生物医学研究与应用领域实现高效利用。然而,利用与安全的矛盾是形影相随、不可分割的;而生物医学大数据与人民群众日常生活、社会经济稳定发展及国家安全的关系极为密切,从个人到国家各层次上的安全与安保问题既复杂又重要,的确马虎不得。从理论上说,绝对的不用才有绝对的安全,那显然是不可取的。因此,如何让管理保障安全利用,支撑高效利用,是一个长远而艰巨的任务。
只有做到标准整合生物医学核心研究数据与基础临床数据,才能保证实现数据的安全管理;而只有长久实现数据的安全管理,才能取信于民,促进数据的标准整合。在此基础上,安全、高效地利用数据也就有了从技术到管理的依托。
上述目标的实现,需要提供完备的技术体系,同时需要工程平台资源的支撑。而依靠上述生物医学大数据服务平台及其衍生或联系的各级各类数据服务,在统一领导下坚持不懈的努力,是可以实现的。应当强调,没有这样的在统一领导下采用统一标准的数据服务平台的实践,政府的种种数据安全政策与规范,或者难以落实,或者有可能在非技术性落实的过程中阻碍数据的利用。
当然,国家相应法律规范或政策条例的制定,对于数据的安全管理至关重要。它不仅可以对生物医学大数据的安全整合给出一系列重要的标准,提供生物医学大数据安全共享的政策规范,解决数据共享与隐私保护之间的矛盾,而且还可以消除生物医学大数据汇交整合过程中的非安全性阻力,从而鼓励实现大数据的安全整合与高效交互共享。在这个方向上,我国政府从地方到中央,都已经做出了不少努力,但是由于数据安全问题与社会各层次的密切关系以及由此带来的从规范制定到实施的复杂性,这些努力所产生的成效依然有限。建议在分析这些复杂性的基础上,采取“分步渐进”和“分地试行”相结合的方法,在开拓中吸取经验教训,让人民、社会和政府与立法机构共同在改革前进中,完善相应的法律体系。
与此相关,政府的各地各级管理机构,以及相关的部门、行业管理机构,必须长期坚持分级分层统一管理的理念,稳步踏实地与数据平台协同,推动生物安全、生物安保审查机制的建立,推进数据安全相关的立规立法,奠定数据标准整合基础,保障平台在数据管理利用方面的工程化服务。
3.3 改善科技创新与开发应用结合的生物医学大数据科研转化机制
生物医学大数据虽然近年来发展势头迅猛,但它终究是一个新生事物,而且由于其内在的4V/3H特征,使得从标准化整合到高效分析利用都有一系列的与影像学、检验科学、数据科学、计算科学、信息科学相关交叉的理论与技术问题,需要依靠创新研究与技术整合加以解决。即便是在数据服务层面上,相关的工程科学问题也是极具挑战的。在这个方面,客观现实是理论方法突破不多,而众多临床医疗机构、健康体检产业与信息领域的中小创业公司或者行业巨头,投入各种各样的资源,利用极强的计算能力,解决一些实际问题的研究开发较多。在两者之间,药物研发机构与行业,虽然有应用大数据促进药物研发的强烈需求,但实际操作中对于数据共享都存在相当大的理念与政策上的阻力。
因此,无论是国家的生物医学大数据的基础性科技平台,还是国家的生物医学大数据安全管理体系,都要面向研究开发和应用需求的广阔场景,做好服务工作;以工程技术服务为支撑,以生物安全与生物产业政策法规为导向,努力构建将研究、开发、产业应用紧密联系起来的生物医学大数据科研转化机制。在这个方面,除利用云界面分割数据的保存与数据利用,利用区块链技术协调数据共享与知识产权保护的矛盾外,还可以充分发挥医学系统命名法——临床术语(SNOMED CT)、统一医学语言系统(UMLS)或医学语言、百科全书和术语命名的通用架构(GALEN)等标准的作用,构建与临床业务契合度高的医学术语体系,促进关键医学术语、分类和编码的整理和统一,有序可控地实现并逐步扩大数据共享的范围与层次,鼓励社会各方协同开发、挖掘数据,提升数据利用的层次。
同时,还要建立基于生物医学大数据的产品开发应用监管流程,逐步完善有效性和安全性的验证标准,促进协同创新的发展。
3.4 培育交叉会聚与专业工程结合的生物医学大数据人才队伍
鉴于生物医学大数据极强的数据科学内涵以及近年来不断发展的机器学习和人工智能提供的发展机遇,该领域对人才的需求远远超越现有的计算生物学和生物信息学的人才储备。同时,从数据整理到数据服务需要大批相关工程技术人员的投入,但这方面队伍的建设,却非常艰难。除此之外,生物医学大数据还要求医学、公共卫生背景的专业人员掌握大数据的认知方法,进而从生物、医学、数据三个角度向这一交叉学科汇聚,实现融会贯通,共同推进学科发展。
核心问题是人才培养与队伍建设的供需矛盾。从研究院所、高等学校到中级学校,要有特色、有针对性地培养不同层次的数据管理、信息转化计算、医学数据解译的科技人才和工程技术人才,在数量和质量上保证适应需求的人才培养。人才成长、队伍发展的核心问题是政策,要针对各种人员的特点建立相适应的责权与评估激励机制。
要形成不同领域的人才队伍协同工作、交流经验、共享成果的机制。对于各个机构而言,要以出成果为鼓励合作的主要目的,淡化“排名”等干扰因素。提供不同背景研究队伍的交流、合作平台,加强信息互通,形成共通的认知方法论和研究体系。要以利用先进的数据分析处理技术来解决具有临床意义的问题为方向,从引导提升医疗效率、推动医学研究的广度和深度等方面,培养所需的人才团队和建设创新创业体系,鼓励人才队伍以严谨求实的理性态度,科学地挖掘生物医学大数据的内在价值。
4 结束语
上述政策建议是作者在总结生物医学大数据从“学科”到“领域”,从“国家政府布局”到“社会机构活动”等各个方面的国内外历史实践基础上理性思考和心得总结的产物。但是,面对如此迅速发展的领域,受我们信息知识面的客观局限以及所处实践地位的主观局限,这些建议的“全局性”“客观性”“可行性”难免有不少值得商榷和修正的方面。因此,我们衷心希望,读者们——我国生物医学大数据的管理部门、研究与应用单位,以及广大的参与者与应用者,在利用这篇文章作为参考材料的同时,能及时提出各种批评意见和新的建议。我们相信,只有这种真正站在国家社会整体利益基础上的科学坦率的讨论,才能最终让我国生物医学大数据的事业突破瓶颈、健康发展,为人类共同体的生命科学研究与医学健康事业,做出踏踏实实的优秀贡献。
5 致谢
本文得到了鲍一明、陈润生、何纳、何萍、戢博阳、姜勇、金霞、靖瑞锋、林旭、李光亚、李烨、刘晓、王泽峰、翁建平、杨红飞、张国庆、张敬谊、张路霞、周豪魁、周凯欣、朱伟民等多位长期从事生物医学大数据研发和管理的专家的大力支持,他们或为本文的撰写和修改提供信息资料,或提出了宝贵的意见和建议,在此一并感谢!
参考文献
[1] Sagiroglu S,Sinanc D.Big data:A review[C].IEEE International conference on collaboration technologies and systems (CTS),2013:42-47.
[2] 宁康,陈挺.生物医学大数据的现状与展望[J].科学通报,2015,60(5):534-546.
[3] Hastings A,Arzberger P,Bolker B,et al.Quantitative Bioscience for the 21st Century[J].BioScience,2005,55:511-517.
[4] Vinson V,Purnell BA,Zahn LM,et al.Does It Compute?[J].Science,2012,336(6078):171.
[5] Lander ES1,Linton LM,Birren B,et al.Initial sequencing and analysis of the human genome[J].Nature,2001,409(6822):860-921.
[6] Bourne P E,Lorsch J R,Green E D.Perspective:Sustaining the big-data ecosystem[J].Nature,2015,527(7576):S16-S17.
[7] 张国庆,李亦学,王泽峰,赵国屏.生物医学大数据发展的新挑战与趋势[J].中国科学院院刊,2018,33(8):852-860.
[8] 欧高炎,朱占星,董彬,鄂维南.数据科学导引[M].北京:高等教育出版社,2017.
[9] Tansley S,Tolle K.The fourth paradigm:data-intensive scientific discovery[R].Redmond,WA:Microsoft research,2009.
[10] Stevens H.Globalizing Genomics:The Origins of the International Nucleotide Sequence Database Collaboration[J].Journal of the History of Biology,2018,51(4):657-691.
[11] Health Data ResearchUK.About Health Data Research UK [EB/OL].[2020-01-12].https://www.hdruk.ac.uk/.
[12] 郝柏林.建议尽快组建国家级生物医学信息中心[J].中国科学院院刊,2000,15(2):133-134.
[13] 中华人民共和国国务院.国家中长期科学和技术发展规划纲要(2006—2020年)[EB/OL].[2019-12-31].http://www.gov.cn/jrzg/2006-02/09/content_183787.htm.
[14] 中华人民共和国科学技术部,等.国家“十二五”科学和技术发展规划[EB/OL].[2011-07-13].http://www.gov.cn/gzdt/2011-07/13/content_1905915.htm.
[15] 中华人民共和国国家发展和改革委员会,等.国家重大科技基础设施建设“十三五”规划[EB/OL].[2017-01-11].https://www.ndrc.gov.cn/xxgk/zcfb/ghwb/201701/t20170111_962219.html.
[16] Walker J,Darer J D,Elmore J G,et al.The road toward fully transparent medical records[J].N Engl J Med,2014,370(1):6-8.
[17] German Digital Care Act:Industry Experts Examine The New Law's Impact In 13th MedTech Radar [EB/OL].[2019-12-30].https://www.htgf.de/en/german-digital-care-act-industry-experts-examine-the-new-laws-impact-in-13th-medtech-radar/.
[18] Alexa [EB/OL].[2019-12-31].http://www.alexa.com.
[19] 华为.华为以全联接医疗方案服务大健康[EB/OL].[2015-09-22].https://www.huawei.com/cn/press-events/news/2015/09/huaweiyiquanlianjieyiliaofuwu.
[20] 王春.国内首个肿瘤AI大数据实验室秀“内功”[EB/OL].[2019-02-28].http://www.xinhuanet.com/tech/2019-02/28/c_1124172577.htm.
[21] U.S.Food and Drug Administration.Framework for Fda's Real-World Evidence Program [EB/OL].[2018-12-07].https://www.fda.gov/media/120060/download.
[22] National Institutes of Health (NIH).NIH Data Sharing Policy and Implementation Guidance[EB/OL].[2019-12-31].https://grants.nih.gov/grants/policy/data_sharing/data_sharing_guidance.htm.
[23] Kaiser J.Why NIH is beefing up its data sharing rules after 16 years NIH Data Management and Sharing Activities Related to Public Access and Open Science[EB/OL].[2019-11-11].https://www.sciencemag.org/news/2019/11/why-nih-beefing-its-data-sharing-rules-after-16-years.
[24] Precision Medicine Initiative:Privacy and Trust Principles [EB/OL].[2019-12-31].https://allofus.nih.gov/protecting-data-and-privacy/precision-medicine-initiative-privacy-and-trust-principles.
[25] European Union (EU).General Data Protection Regulation (GDPR) [EB/OL].[2020-7-31].https://gdpr.eu/tag/chapter-3/.
[26] Wu F,Zhao S,Yu B.et al.A new coronavirus associated with human respiratory disease in China[J].Nature,2020,579(7798):265-269.
[27] Xu X,Chen P,Wang J,et al.Evolution of the novel coronavirus from the ongoing Wuhan outbreak and modeling of its spike protein for risk of human transmission [J].Science China Life Sciences,2020,63(3):457-460.
[28] World Health Organization.Instructions for Submission Requirements:In vitro diagnostics (IVDs) Detecting SARS-CoV-2 Nucleic Acid [R].2020-03-23.
[29] Tang XL,Wu CC,Li X,et al.On the origin and continuing evolution of SARS-CoV-2[J].National Science Review,2020,nwaa036.2020,7(6):1012-1023.
[30] Zhou P,Yang XL,Wang XG,et al.A pneumonia outbreak associated with a new coronavirus of probable bat origin [J].Nature,2020,579(7798):265-269.
[31] Lam T T,Shum M H,Zhu H,et al.Identifying SARS-CoV-2 related coronaviruses in Malayan pangolins.Nature,2020 (online).
[32] 中国疾病预防控制中心.新型冠状病毒肺炎专栏[EB/OL].[2020-03-01].http://www.chinacdc.cn/jkzt/crb/zl/szkb_11803/.
[33] 科大讯飞.讯飞医疗——用人工智能服务健康中国[EB/OL].[2020-03-01].https://www.iflytek.com/health.
[34] 国家生物信息中心(CNCB)/中国科学院北京基因组研究所(BIG).2019新型冠状病毒信息库(2019nCoVR)[EB/OL].[2020-03-01].https://bigd.big.ac.cn/ncov/.
[35] 中科院网信工作网,病毒基因组自动化鉴定云平台上线[EB/OL].[2020-02-17].http://www.ecas.cas.cn/xxkw/kbcd/201115_128157/ml/xxhcxyyyal/202003/t20200306_4554740.html.
[36] International severe acute respiratory and emerging infection consortium.COVID-19 Clinical Research Resources[EB/OL].[2020-03-30].https://isaric.tghn.org/protocols/clinical-characterization-protocol/.
[37] Harris PA,Taylor R,Minor BL,et al.The REDCap consortium:Building an international community of software platform partners [J].Journal of biomedical informatics,2019,95:103208.
[38] AMiner.知识疫图[EB/OL].[2020-03-30].https://www.aminer.cn/.
[39] 中华人民共和国国家卫生健康委员会.关于印发新型冠状病毒感染相关ICD代码的通知[EB/OL].[2020-03-30].http://www.nhc.gov.cn/yzygj/s7659/202002/dcf3333b740f4fabad5f9f908d1fc5b4.shtml.
作者简介
赵国屏,分子微生物学家,中国科学院院士。现任中国科学院上海营养与健康研究所生物医学大数据中心首席科学家,中国科学院上海植物生理生态研究所合成生物学重点实验室专家委员会主任,复旦大学生命科学学院微生物学和微生物工程系主任,中国生物工程学会合成生物学专业委员会主任,上海生物工程学会名誉理事长。主要研究领域为微生物基因组学和生物信息学,微生物生理病理及代谢分子调控机制,微生物系统与合成生物学。曾参与启动中国基因组学及相关生命“组学”研究,克隆若干遗传病致病基因;主持若干重要微生物的基因组、功能基因组、比较和进化基因组研究,解析SARS冠状病毒分子进化机制。曾在细菌蛋白质乙酰化组和肠道微生物组等领域做出若干开创性工作。曾组建并领导中国科学院合成生物学重点实验室,在人工染色体重构、代谢组与代谢流量组平台建设、天然化合物细胞工厂制造、基因编辑技术研发等方向上,实现重要突破。2016年,参与组建并领导中国科学院上海生命科学研究院(现营养与健康研究所)生物医学大数据中心,为申报建设国家生物医学大数据基础设施开展预研工作。
* 为本文通讯作者。