2.1 医疗大数据的采集
通常和医疗行为相关的数据才被称为医疗大数据,但是现在这一概念已经扩展到健康人群的健康数据,以及和医疗健康相关的行为、物资数据。所以,医疗大数据按类型可以分为两种,个人医疗健康数据和物资数据,如图2-1所示。
2.1.1 医疗大数据的来源
医疗大数据主要来源于以下几个方面。
第一,患者就医过程中产生的信息。从患者进入医院开始,挂号环节便将个人姓名、年龄、住址、电话等信息输入完全了;随后在医生就医环节,患者的身体状况、医疗影像等信息也将被录入数据库;看病结束以后,患者缴费结算的过程中,又将费用信息、报销信息、医保使用情况等信息添加到医院的大数据库里面。这将形成医疗大数据最基础,却也是最庞大的原始资源。
图2-1 医疗大数据的类型
第二,临床医疗研究和实验室数据。临床和实验室数据整合在一起,使得医疗机构面临的数据增长非常快,一张普通CT图像含有大约150MB的数据,一张标准的病理图则接近5GB。如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院累积的数据量就可达数万亿字节甚至数千万亿字节(PB)之多。
第三,医疗大数据是因健康活动而产生的数据,从出生、免疫、体检、门诊、住院和其他活动中产生。从数据来源上看,可以将数据划分为三类,分别为全员人口数据库、电子健康档案数据库和电子病历数据库。
全员人口数据库:主要包含人口信息,数据来源于各大部门(卫计委、公安、民政、统计、人力社保、教育等)交互共享。
电子健康档案数据库:主要包含定期或不定期的健康体检记录、卫生服务过程中的各种服务记录、专题健康或疾病调查记录。数据来源于体检机构、医院和基层卫生机构。
电子病历数据库:主要包含医院诊断治疗全过程原始记录,数据来源于医院,其商业化价值最高。
除了以上的三个传统来源之外,医疗大数据还包含通过“物联网”所收集的数据—医疗器械收集的健康数据、APP、远程监控、传感器提供的连续临床数据。云端的临床数据让医生可以方便地获得远在100公里外的患者的信息,也可以和其他医生进行远程互助。
医院是医疗大数据的主要来源,而医院的基础数据可以分为以下三个类别:
(1)临床基础数据。包括疾病、临床路径、用药等。
(2)医院的资源数据。包括销售成本、治疗费用等人、财、物的资源数据。
(3)患者院内、院外数据。包括用户的行为数据、饮食数据、运动数据等相对零散的数据。
医疗大数据按场景分为院内数据和院外数据,如图2-2所示。
图2-2 医疗大数据按场景分为院内数据和院外数据
院内数据是在医院所产生的数据。医院的信息化程度日趋成熟,医院信息系统(HIS)、电子病历系统(EMR)、影像采集与传输系统(PACS)、实验室检查信息系统(LIS)、病理系统(PS)、医疗器械等信息化系统和设备所记录下来的疾病、体征数据都属院内数据。还包括医院物资管理、医院运营系统所产生的数据。
院外数据主要是人们在日常生活中所产生的数据。比如,通过体检机构、智能穿戴设备获取的人体体征数据。还包括医药流通数据、移动问诊等行为数据。物联网和互联网的发展,也让和医、药相关的行为数据量大大提升。
基因数据的产生环境可能在院内,也可能在院外,根据其产生的目的,用于疾病的诊断、预测,或者判定健康人群的个体特征。
国内医疗系统相对较为封闭,公立医院的医疗数据单独存储在院内,数据存储单元之间互不流通、不开放。大量优质的患者健康数据封闭在医院的围墙之内,难以有效利用。这固然有对患者健康信息安全性进行考虑的因素,但大量数据躺在医院,也造成了数据的浪费。
针对医院的资源数据,通过HRP系统[2]进行管理。而针对患者行为数据,则可以通过各种移动终端或采集设备,进行数据的收集。比如,医生要关注某一疾病消耗了多少社会资源,国家应该在保险支付体系为它报销多少比例,这就涉及HRP系统的数据。
利用互通互联的信息系统获取病种相关的临床与财务数据,根据临床路径对病种进行精准的成本测算,再将医院病种成本与医保支付标准进行比对,就能得出疾病的报销比例。如果医生关注的是临床的诊疗行为,想要提高糖尿病的治疗效果和临床疗效,那么更应该关注疾病的诊断、治疗、药物以及诊后随访的数据。这就需要EMR等系统的支撑,利用病种成本分析,优化医院科室服务,为医院科室发展提供量化建议,为医院病种绩效管理提供参考指标。
总之,针对不同的应用场景,医疗信息化(Healthcare Information Technology,HIT)企业收集的数据内容与医疗研究者的研究内容都是不同的。数据的价值大小,既取决于它的使用者,又取决于具体的应用场景。当数据积累到一定规模后,大数据产品可以被商业化,应用到医疗健康服务产业,最终提升医疗行业效率和医疗服务的精准度。
2.1.2 医疗大数据采集来源
1.电子病历数据
这是患者就医过程中产生的数据,包括患者基本信息、疾病主诉、检验数据、影像数据、诊断数据、治疗数据等,这类数据一般产生及存储在医疗机构的电子病历中,这也是医疗数据最主要的产生地。电子化的医疗病历方便了病历的存储和传输,但是并未达到进行数据分析的要求。大约80%的医疗数据是自由文本构成的非结构化数据,其中不仅包括大段的文字描述,也包括包含非统一文字的表格字段。通过医学自然语言理解技术,将非结构化医疗数据转化为适合计算机分析的结构化形式,是医疗大数据分析的基础。
电子病历中所采集的数据是数据量最多、最有价值的医疗数据。通过和临床信息系统的整合,内容涵盖了医院内的方方面面的临床数据集。在电子病历的互通互联上,出于各自的利益(限制患者转诊),各大电子病历企业也不愿意使数据互通互联。根据美国政府相关报告显示,其电子病历共享比例也仅为30%左右。
案例
联众电子病历系统
联众电子病历系统集成各种临床医疗系统的数据,以最终建立完整、共享的临床数据中心(CDR)为软件的核心思想。系统以患者为中心,全面整合HIS、LIS、PACS、RIS、病理、超声、内镜、病案、输血、手麻、院感、医保、体检、合理用药等系统,实现医院业务数据的共享,消除医院内部信息孤岛。联众电子病历涵盖患者在诊疗过程中的图片、文字、表格、语言等多媒体信息的实时采集、传输、存储、处理、整合和利用。
2.检验数据
医院检验机构产生了大量患者的诊断、检测数据,也大量存在第三方医学检验中心产生的数据。检验数据是医疗临床子系统中的一个细分小类,但是可以通过检验数据直接了解患者的疾病发展和变化。目前临床检验设备得到迅速发展,通过LIS系统对检验数据进行收集,可以对疾病的早发现、早诊断,以及正确诊断做出贡献。
案例
东软LIS系统
东软LIS系统由检验工作站系统、报告查询系统、采血系统、质量控制系统、微生物系统、试剂管理系统组成。以“服务临床”为核心,实现了基于TAT检验样本全流程管理,具备了智能化的临床支持和精细化的检验科室管理能力。东软LIS系统拥有电子病历、LIS、EMR等齐全的医疗信息化系统,并在其基础上组建了东软医疗大数据科研分析平台。借助这个平台,整合全院来自不同医疗业务系统的各类临床数据,借助大数据平台的海量数据并发处理能力,为科研医生提供一个集数据获取、探索、处理、分析、挖掘于一体的自助式分析平台,支持PB级医疗数据的存储管理、查询分析,特别适合大型三甲医院的科研用户使用。
3.影像数据
随着数据库技术和计算机通信技术的发展,数字化影像传输和电子胶片应运而生。医疗影像数据是通过影像成像设备和影像信息化系统产生的,医院影像科和第三方独立影像中心存储了大量的数字化影像数据。医学影像大数据是由DR、CT、MR等医学影像设备所产生,并存储在PACS系统内的大规模、高增速、多结构、高价值和真实准确的影像数据集合。与检验信息系统(LIS)大数据和电子病历(EMR)等同属于医疗大数据的核心范畴。
医学影像数据量非常庞大,增速快,标准化程度高。影像数据和临床其他数据比较起来,它的标准化、格式化、统一性是最好的,价值开发也最早。案例
锐珂医疗
锐珂医疗的前身是美国柯达医疗集团。锐珂医疗推出了全新的云网信息化解决方案Carestream Vue Solution,涵盖了全面的专业影像处理和流程管理应用,为医院的所有医技临床科室提供“一站式”的全Web工作平台。锐珂医疗从2011年开始,就从传统PACS逐渐转型到影像云。迄今为止,锐珂在全球已经建设了14个影像云数据中心,管理的数据高达3亿人次,而且数据量每天都在飞速增加。
4.费用数据
包括医院门诊费用、住院费用、单病种费用、医保费用、检查和化验收入、卫生材料收入、诊疗费用、管理费用率、资产负债率等和经济相关的数据。除了医疗服务的收入费用之外,还包含医院所提供医疗服务的成本数据,包含药品、器械、卫生人员工资等成本数据。在DRGs按疾病诊断相关组付费模式中,需要详细的成本数据核算。通过大样本量的测算,建立病种标准成本,加强病种成本核算和精细化成本管理。
案例
东软望海
东软望海作为1 600余家医院HRP与成本核算软件和服务的提供商,获得了CN-DRG官方授权,通过DRG智能管理平台帮助中国医疗在支付方式上进行改革。东软望海DRG平台可以灵活支持全国各地不同编码类型的病案数据进行分组,为医疗机构、支付方和卫生部门提供成本监管、绩效评估、审核等功能。DRGs医院绩效评价通过目标管理、绩效方案、绩效考核和绩效分析等模块,可灵活设置绩效方案及其评价指标,促使医院提高医疗工作效率和整体医疗技术水平;DRGs医院控费则依托大数据,建立病组医疗费用和成本的动态分析模型,提供区域、机构及病组有效控费指标及参考值;而DRGs财政补偿可以精准测算医院补偿金额和政策性亏损,有效防止重复补偿,提高补偿资金使用效率和投放准确性;DRGs智能审核与支付可以实现从患者入院到出院的全程信息跟踪,可帮助社保和商保提升其基金使用的有效性,同时,其对基金使用情况进行实时监控,可针对异常病历进行深入挖掘分析和反馈。
5.基因测序数据
基因检测技术通过基因组信息以及相关数据系统,预测个人罹患多种疾病的可能性。基因测序会产生大量的个人遗传基因数据,一次全面的基因测序,产生的个人数据达到300GB。一家基因测序企业每月产生的数据量可以达到数百TB甚至1PB。
测序技术的发展让基因数据以远超摩尔定律的速度在积累,海量的数据亟待深度解读和挖掘。基因大数据的价值非常巨大,但是现在的数据利用和解读还处在初级阶段。
案例
华大基因
资料显示,华大基因目前拥有超过200台测序仪,是世界上最大的基因测序机构。其中新生胎儿NIPT基因测序每天大约产生10 000个样本,需要与数万个正常胎儿几十TB的基因组数据进行差异统计分析,数据计算量巨大。每月产生的基因数据高达300TB~1PB,目前累计基因库数据22PB。
6.医药研发数据
制药公司在新药研发及临床过程中产生的数据。制药公司主要对临床试验数据进行系统分析,收集和解读非结构化数据,从而优化生产流程,最大限度地利用研发潜力。
案例
拜耳
拜耳公司依靠大数据分析,在2017年年底推出了既重点突出又多样化的开发战略,将50多个项目几乎同期投入临床开发,最大限度地利用了研发潜力。拜耳公司的研发重点项目在肿瘤学、心血管疾病和妇科学领域,同时在营销方面也利用大数据进行推广的辅助决策。
7.药品流通数据
指药品和疫苗的运输、流通、存储、销售、接种数据。药品运输、销售数据虽然和疾病的诊治无关,但是医药流通企业可以通过物流数据、库存数据、销售数据进行挖掘,获取药品流向、用户健康等关键信息,实现系统智能化引导,满足顾客准确选药、合理用药、健康保健的多元化服务需求。
案例
国药集团
国药集团通过大数据平台,搭建医药流通全过程的电子化追溯平台,探索实现医药产品从生产完成到销售终端机构(医院、药房、诊所等合法经营机构)之间的全程追踪、追溯与召回,有效地提高医药流通的监管水平。同时,探索基于药品流通领域追溯大数据的应用,为药品紧急调拨配送、药品流动趋势、医药储备可视化等提供数据支撑。
8.智能穿戴数据
各种智能可穿戴设备的出现,使得对血压、心率、体重、体脂、血糖、心电图等健康体征数据的监测都变成可能,患者的单一体征健康数据以及运动数据被快速上传到云端,而且数据的采集频率和分析速度大大提升。除了生命体征之外,还有其他智能设备收集的健康行为数据,比如每天的卡路里摄入量、喝水量、步行数、运动时间、睡眠时间等。
智能穿戴设备虽然在这两年遇冷,用户很难形成黏性,但是并不意味着智能穿戴设备所产生的数据没有意义。提供健康数据和服务,可能是智能穿戴厂商未来的转型之路。健康大数据的收集必须依靠硬件载体,智能穿戴设备还将会迎来自己的第二春。
9.移动问诊数据
指通过移动设备端或者PC端连接到互联网医疗机构,产生的问诊数据和行为数据。动脉网蛋壳研究院就曾经通过互联网问诊企业春雨医生的数据,分析各地医生互联网问诊的活跃度、细分疾病种的问诊行为。对这些数据的分析,对行业发展、互联网问诊企业的决策有着非常重要的帮助。
10.体检数据
体检数据是体检机构所产生的健康人群的身高、体重、检验和影像等数据。这部分数据来自医院或者第三方体检机构,大部分是健康人群的体征数据。随着亚健康人群、慢病患者的增加,越来越多的体检者除了想从体检报告中了解自己的健康状况,还想从体检结果中获得精准的健康风险评估,以及了解如何进行健康、慢病管理。
案例
美年大健康
美年大健康是中国知名的专业健康体检和医疗服务集团,全国布局400余家体检中心,2017年完成2 160万人次健康体检服务,2018年体检人次突破3 000万大关。美年大健康是中国最大的个人体检数据平台,通过建立美年大健康研究院,开展基于健康大数据的科研创新和公共卫生服务,加强在人工智能、基因检测、肿瘤早筛、智能诊断、健康服务、健康保险等核心赛道的控制力。
2018年6月,美年大健康和北大医学部共同发起成立“北京大学医学部美年公众健康研究院”,意在打造国际顶尖的公众健康与大数据研究和实践平台,通过这个数据研究平台,承担国家健康领域科研项目、开展健康大数据挖掘分析等工作。