医疗大数据挖掘与可视化
上QQ阅读APP看书,第一时间看更新

第1部分 总体篇

第1章 医疗大数据概述

1.1 大数据概述

1.1.1 大数据基础知识

1.大数据定义

2008年Nature出版专刊Big Data,首次提出名词“大数据”[1]。2011年Science推出关于数据处理的专刊Dealing with Data[2]。大数据自提出至今得到各界高度关注,但其定义学术界尚未达成共识,目前主要为从内涵和外延进行的定性描述。

(1)技术分析角度。这一类定义重点关注的是对海量、复杂的数据进行分析、处理,从而获得信息和知识的技术手段。其中较为权威的观点来自麦肯锡全球研究院(McKinsey Global Institute,MGI)所发表的《大数据:下一个创新、竞争和生产力的前沿》,其提出:“大数据”是指无法在一定时间范围内用常规软件工具进行捕捉、存储、管理和分析的数据集合。维基百科将其定义为利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。徐宗本院士在第462次香山科学会议上的报告中,将大数据定义为不能集中存储并且难以在可接受时间内分析、处理,其中个体或部分数据呈现低价值性而数据整体呈现高价值性的海量、复杂数据集。综合此类观点来看,一是大数据是一种难以处理的大规模数据集,二是需要特定的技术才能完成其采集、分析、应用等。

(2)大数据应用价值角度。这一类定义强调大数据的应用,关注的是从数据中获取有价值的信息和知识,最终目的是建立商业方面的竞争优势甚至是创新商业模式。高德纳咨询公司(Gartner Group)曾提出:大数据是需要新处理模式赋予更强的决策力、洞察力和流程优化能力来适应海量、高增长率和多样化等特征的信息资产。哈佛大学访问学者徐晋在《大数据经济学》中指出,大数据是指存在价值关联的海量数据。其本质是社会经济的离散化解构和全息化重构,表现为行业间海量数据的关系从量变到质变的转变,即深度挖掘。《促进大数据发展行动纲要》中指出,大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,其相关技术正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。

(3)大数据对社会发展影响角度。这一类定义强调大数据对人类社会生产和生活方式、思维范式等产生的重大影响,认为大数据开启了人类发展的新阶段,并且认为这种范式的影响是持久而深远的。英国数据科学家维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)及肯尼斯·库克耶(Kenneth Cukier)在出版的《大数据时代》中提出,大数据是人们获得新的认知、创造新的价值的源泉,大数据还是改变市场、组织结构的方法。哈佛大学定量社会学研究所主任盖瑞·金(Gary King)在名为“Why ‘Big Data’ Is a Big Deal”的演讲中指出,大数据技术是一场“大数据革命”(Big Data Revolution),给政府管理、学术研究及商业活动带来了很多颠覆式变革。他认为,大数据技术将触及任何一个领域,其改变的不仅仅是信息生产力,更是信息生产关系。

虽然以上关于大数据定义的方式、角度以及侧重点不同,但是所传递的信息基本一致,即大数据归根结底是由数量巨大、结构复杂、类型众多的数据构成的数据集,其特性是无法使用传统的数据管理以及处理技术,其本质是“信息爆炸时代”对数据的核心价值再挖掘。

2.大数据特征

最初不同的学者对大数据的特征进行归纳和阐述,认为大数据满足“3V”的特征,即规模性(Volume)、高速性(Velocity)、多样性(Variety)[3]。后来也有学者提出价值性(Value)作为第4个特征。

(1)规模性:指数据量极大。根据国际数据公司(International Data Corporation,IDC)的估测,数据以每年50%的速度增长,即每两年就增长一倍(大数据摩尔定律)。

(2)高速性:指数据产生和更新的速度很快,大数据的产生、传输、更新速度快,是一个快速的动态过程。在“大数据时代”,从数据的生成到消耗,时间窗口非常小,需要对数据进行实时分析与处理,在秒级完成万亿张表的聚合查询,以实现实时推荐、交互查询以及决策等场景。

(3)多样性:包括来源多样化、形态多样化、格式多样化以及表达多样化等特点。大数据不仅包括文本数据,还包括图像、视频以及音频等多媒体数据。大数据由非结构化数据、结构化数据以及半结构化数据组成。大部分为非结构化数据,其与人类信息密切相关。

(4)价值性:指数据价值稀疏,犹如浪里淘沙却又弥足珍贵。大数据虽然多,但价值密度非常低。以视频为例,在连续不间断的监控中,可能有用的数据时长仅一两秒。例如,若基于用户发送的微博评估其信用水平,大部分微博未必能提供有效信息。大数据虽然价值密度低,但商业价值高。大数据中隐藏了具有高价值的信息,这些信息需要通过机器学习与数据挖掘方法才可能提取到。

以医院电子病历数据为例,它是典型的大数据。首先,电子病历数据量大。以一个小规模城市的数家医院形成的区域医疗系统为例,每天门诊量和住院患者数都在数万人以上,每人每次的病历、检验数据可达到几个GB,因此每天的数据都在几个TB甚至数十个TB以上。其次,电子病历数据的更新速度快。每天在线检查、化验的人数快速增加,其数据也在快速更新。然后,电子病历数据包括文本、图像和视频等多类型数据。最重要的是电子病历数据中隐藏着极有价值的医疗和医学信息。通过数据挖掘方法可以挖掘出这些信息以便医生进一步分析患者的病因,形成更好的治疗方案。

同时,不同学者在“4V”的基础上对大数据特征进行了拓展,认为大数据还具有真实性(Veracity)、易变性(Variability)等特征。大数据的真实性是指数据的准确度和可信赖度,代表数据的质量。大数据的易变性是指伴随数据高速性的特征,数据流还呈现一种波动的特征。

综上所述,大数据特征如图1-1所示。

图1-1 大数据特征

随着时间的推移,业界对大数据的认识更深入、更全面。除以上对大数据特征的通用描述之外,不同应用领域的大数据的具体特征也存在差异。如医疗领域需要根据患者病历以及影像等信息判断病情,由于其与人们的健康息息相关,所以数据精度以及可靠性要求非常高。医疗大数据的特征将在1.2.3小节中详细介绍。

1.1.2 大数据关键技术

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值的信息的技术。解决大数据问题的核心是大数据技术。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题来促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据并从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。大数据关键技术包括数据采集、数据清洗、数据融合等基础技术,以及数据挖掘和数据可视化技术(见图1-2)。

图1-2 大数据关键技术

1.数据采集

大数据来源广泛,包含文本、图像、音/视频等各类结构化、半结构化及非结构化数据,数据采集是大数据技术开展的基础。对于数据的采集,目前常用的技术包括射频识别技术、传感器技术、网络爬虫技术、软件采集技术等。

2.数据清洗

并非所有的数据皆是有价值的,有些数据并不是我们所关心的内容,同时有些数据存在完全错误的干扰项,因此要对数据通过过滤“去噪”,从而提取有效数据。数据清洗是一种清除错误数据、去掉重复数据的技术,包括检查数据一致性、数据降噪、处理无效值和缺失值等。

3.数据融合

数据融合是将来自不同数据源的异构数据进行检测、抽取、预处理、关联、估计和整合等一系列操作的一种多层次、多角度数据处理手段,包括数据集成、数据标准化、数据结构化、数据归约等技术。数据融合是大数据处理的难点。

4.数据挖掘

大数据的核心在于对这些有意义的数据进行专业化处理,通过数据挖掘实现数据价值最大化。数据挖掘就是从大量的实际应用数据中,提取隐藏在其中的有价值的信息的过程。一般而言,数据挖掘技术包括统计学、聚类与模式识别、机器学习等。

5.数据可视化

数据可视化就是借助图形化的手段,将信息形象化,清晰、有效地传达与沟通信息。利用人类对形状、颜色的敏感,有效地传递信息,从而直观展现数据中的关系、规律和趋势。数据可视化技术包括2D/3D法、时间可视化、多维法和层次法等。常用的数据可视化图表有柱状图、条形图、饼图、雷达图、折线图、堆积图、散点图、标签云、关系图等。

大数据的意义不仅仅在于生产和掌握庞大的数据信息,更重要的是利用大数据技术对数据进行深度价值挖掘与利用。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高大数据技术对数据的“加工能力”,通过“加工”实现数据的“增值”。