1.2 生物医药大数据的高效处理
如此大规模和复杂的数据,需要高效的存储、挖掘、分析、可视化等技术才能应对和处理。总的来说,生物医药大数据的高效处理包括两个重要方面:首先是加快处理和分析的速度,其次是改善数据处理的易用性。对于前者,通常采用大规模并行处理技术;对于后者,云计算技术提供了成熟的解决方案。
1.2.1 大规模并行处理技术
生物医药大数据的规模和计算强度已经远远超过了普通计算机所能处理的范围,这在过去的几十年里推动了计算生物学和计算药物学等生物医药学科与计算机学科交叉成为新的学科。生物信息的爆炸式增长、生物过程中相互作用的复杂性、组合化学计算的复杂性、分子级别生物组织的多样性和关联性等,都需要人们使用超级计算、网格计算及其他最新的体系架构来开展计算研究。全球已有很多大型超级计算机或服务器集群被用于生物医药大数据研究,但生物医药软件在可扩展性、可移植性、集成度、可用性等方面仍然有许多问题需要解决,包括将已有的生物医药分析软件移植到最新的超级计算机并进行并行优化,使用网格计算、云计算等分布式技术解决大规模并行计算,利用加速卡(FPGA、GPU、MIC等)和大规模并行架构处理大规模数据等。从计算机系统的角度来讲,生物医药大数据通常需要超级计算机或网格计算等提供的高级计算能力来支撑[9,10]。
1.2.1.1 超级计算机
超级计算机是能够执行一般个人计算机无法处理的大数据量与高速运算的计算机系统,是计算机中功能最强、运算速度最快、存储容量最大的一类。它具有很强的计算和数据处理能力,主要特点表现为高速度和大容量,配有多种外围设备及功能丰富的软件系统。
作为高科技发展的要素,超级计算机早已成为世界各国经济发展和国防科技进步的竞争利器。几十年来,我国高性能计算机的研制水平显著提高,“天河”“神威”系列超级计算机多次夺得世界超级计算机性能冠军[11,12]。在此基础上,我国已经在天津、广州、济南、长沙等地建立了国家级超级计算中心,成功部署了大量生物医药大数据分析平台和软件流水线,为包括生物医药在内的大科学领域提供了重要的计算基础设施。下面简要介绍部分超级计算机在生物医药平台方面的进展。
1.国家超级计算天津中心:生物医药研发平台和基因组学数据分析平台
中国科学院上海药物研究所药物发现与设计中心通过国家超级计算天津中心“天河一号”超级计算模拟与药学实验的紧密配合,确证了一个全新的药物作用位点,直接通过药物设计,未经过任何化学改造,就获得了具有良好癫痫治疗效果的药物先导化合物;还开展了“重大心血管疾病相关GPCR新药物靶点的基础研究”项目相关的计算模拟。
国家超级计算天津中心基于“天河一号”超级计算机开展的生物医药与生物信息研究,主要应用范围包括人类健康咨询、疾病预防、农业育种、新药研发等。该中心构建了PB级基因组学数据的存储、分析和处理平台,支持华大基因在人类健康和精准农业方面的研究,并在健康咨询、农业育种方面显现效益。
2.国家超级计算长沙中心:智慧医疗云平台
国家超级计算长沙中心为国内外科研院所、创新企业提供分子动力学、蛋白质组学、合成甾体激素、水稻全基因组关联分析、生物医学工程研究等领域的计算分析服务,还建立了湖南省首个健康医疗云,以及区域卫生信息平台、远程医疗云平台等智慧医疗相关平台,并对外提供服务。
3.国家超级计算广州中心:生物计算与个性化医疗应用服务平台
国家超级计算广州中心打造的生物计算与个性化医疗应用服务平台支持分子生物学、合成生物学、细胞生物学、系统生物学、生物信息学、生物医学、基因组学等多个生命科学相关学科的研究,帮助用户从原子、分子、细胞、组织、器官、个体、群体和生态系统等多个尺度,系统地解决生命科学中的各种问题,研究不同空间尺度和时间尺度上生命活动与环境的相互关系,从而揭示生命现象的规律和本质。该平台是一个集生物信息分析、药物设计和筛选、医学大数据分析和数据挖掘于一体的、软硬件结合的一站式服务平台,为公众卫生健康、个性化医疗和相关学术研究提供服务和技术支持。
该平台已部署和适配了一批与分子生物学、生物信息学和生物医学相关的分析研究软件,包括NAMD、BLAST、Tinker、Gromacs、Modeller等。研究人员可在该平台上进行生物大分子的结构模拟与功能预测、药物设计和筛选、蛋白质结构预测及相互作用网络分析、蛋白质序列分析、基因调控网络功能分析、基因序列分析和比对、SNP变异检测、疾病与基因关联分析、外显子与转录组研究、医疗健康大数据分析和信息挖掘等多种分析与研究。
1.2.1.2 网格计算
网格计算[13]是利用由许多地理位置相对分散的计算机组成的大规模分布式计算机系统进行海量数据计算的计算模式,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由数以万计的“节点”组成的一张“网格”。网格计算能够充分利用闲置的资源,把数据分成小的片段分发给闲置节点进行计算,可以将大量的闲置资源汇聚成超强的算力,是一种典型的大规模分布式计算模式。
在药物学研究方面,有很多药物研究公司使用低成本、高可扩展的网格计算技术。例如,为了推进预防使用天花病毒的生物武器袭击的研究,United Devices公司设计了网格计算软件Metaproceesor,可以用来部署在企业内部和全球的网格。利用该软件,可以联合200万台个人计算机处理数十亿次的药物虚拟筛选,从而模拟3500万个药物分子同一些靶蛋白的作用,该项目也被认为是历史上规模最大的计算机化学项目之一。2005年,世界社区网格(World Community Grid)启动了一个全球的FightAIDS@home计划,该计划组织了包含全球10万台计算机的网格系统,帮助Scripps研究所的科学家研究治疗艾滋病的药物。
1.2.2 云计算技术
对生物医药领域来说,云计算平台提供了一种主要按使用量付费的计算解决方案,这种模式提供便捷的按需网络访问,使用户进入可配置的计算资源共享池,资源包括网络、服务器、存储、应用软件和服务等。这些资源能够被使用者快速获取,只需要进行很少的管理工作,或与服务供应商进行很少的交互就可以使用。
云计算平台的特殊容错措施使用户可以采用极其廉价的节点来构成云,自动化集中式管理使大量企业不需要负担日益高昂的数据中心管理成本,通用性使资源的利用率较传统计算机系统大幅提升。因此,用户可以充分享受云计算的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。
云计算为生物医药等领域的大数据研究提供了便捷的计算模式,生物医药领域的云计算平台近年来得到了蓬勃发展。在我国,国家超级计算广州中心部署的Galaxy平台是比较著名的云计算平台。该平台由美国宾夕法尼亚州立大学和约翰霍普金斯大学联合开发,功能强大并支持二次开发,集成了大量的生物信息分析工具。我国华大基因开发了名为EasyGenomics的基于云计算的在线基因组分析平台,该平台具有成千上万的处理器及大规模的存储空间,用来应对EB级别的数据处理。