人工智能与大数据技术导论
上QQ阅读APP看书,第一时间看更新

3.7 大数据产业

3.7.1 大数据产业界定

1990年以来,在摩尔定律的推动下,计算存储和传输数据的能力在以指数级的速度增长,每吉字节(GB)存储器的价格每年下降40%。2000年以来,以Hadoop为代表的分布式存储和计算技术迅猛发展,极大地提升了数据管理能力,互联网企业对海量数据的挖掘利用大获成功,引发全社会开始重新审视“数据”的价值,开始把数据当作一种独特的战略资源对待。大数据的所谓3V特征(体量大、结构多样、产生处理速度快)主要是从以下角度描述的。

从技术视角看,大数据代表新一代数据管理与分析技术。传统的数据管理与分析技术以结构化数据为管理对象,在小数据集上进行分析,以集中式架构为主,成本高昂。与“贵族化”的数据分析技术相比,源于互联网、面向多源异构数据、在超大规模数据集(拍字节(PB)量级)上进行分析、以分布式架构为主的新一代数据管理技术,与开源软件潮流叠加,在大幅提高处理效率的同时(数据分析从T+1到T+0甚至实时),成百倍地降低了数据应用成本。

从理念视角看,大数据打开了一种全新的思维角度。其一是“数据驱动”,即经营管理决策可以自下而上地由数据来驱动,甚至像量化股票交易、实时竞价广告等场景中那样,可以由机器根据数据直接决策;其二是“数据闭环”,观察互联网行业大数据案例,它们往往能够构造起包括数据采集、建模分析、效果评估到反馈修正各个环节在内的完整“数据闭环”,从而不断地自我升级,螺旋上升。目前很多“大数据应用”,要么数据量不够大,要么并非必须使用新一代技术,但体现了数据驱动和数据闭环的思维,改进了生产管理效率,这是大数据思维理念应用的体现。

大数据本身既能形成新兴产业,也能推动其他产业发展。当前,国内外缺乏对大数据产业的公认界定。我们认为,大数据产业可以从狭义和广义两个层次界定。从狭义看,当前全球围绕大数据采集、存储、管理和挖掘,正在逐渐形成一个“小生态”,即大数据核心产业。大数据核心产业为全社会大数据应用提供数据资源、产品工具和应用服务,支撑各个领域的大数据应用,是大数据在各个领域应用的基石,如图3-19所示。应该注意到,狭义大数据产业仍然围绕信息的采集加工构建,属于信息产业的一部分。

图3-19 大数据产业

数据资源部分负责原始数据的供给和交换,根据数据来源的不同,可以细分为数据资源提供者和数据交易平台两种角色。数据基础能力部分负责与数据生产加工相关的基础设施和技术要素供应,根据数据加工和价值提升的生产流程,数据基础能力部分主要包括数据存储、数据处理和数据库(数据管理)等多个角色。数据分析/可视化部分负责数据隐含价值的挖掘、数据关联分析和可视化展现等,既包括传统意义上的BI、可视化和通用数据分析工具,也包括面向非结构化数据提供的语音、图像等媒体识别服务。数据应用部分根据数据分析和加工的结果,面向电商、金融、交通、气象、安全等细分行业提供精准营销、信用评估、出行引导、信息防护等企业或公众服务。

目前大数据产业的统计口径尚未建立。对于我国大数据产业的规模,各个研究机构均采取间接方法估算。根据多个咨询机构的预测,2018年我国大数据市场规模将达到280亿元,未来5年(2018-2022)年均复合增长率约为27.29%,2022年将达到735亿元。

从广义看,大数据具有通用技术的属性,能够提升运作效率,提高决策水平,从而形成由数据驱动经济发展的“大生态”,即广义大数据产业。广义大数据产业包含大数据在各个领域的应用,已经超出了信息产业的范畴。美国麦肯锡预计,到2020年,美国大数据应用带来的增加值将占2020年GDP的2%~4%。中国信息通信研究院预计,到2020年,大数据将带动中国GDP增长2.8%~4.2%。总之,在智能化技术发展和数据价值不断提升的数据资产化共同推动下,数字经济是从业务数据化到数据业务化的不断循环渐进的过程,这也就意味着数据与业务的结合仍是大数据时代新技术应用的核心。

3.7.2 大数据技术发展的推动力

1. 社交网络和物联网技术拓展了数据采集技术渠道

经过行业信息化建设,医疗、交通、金融等领域已经积累了许多内部数据,构成大数据资源的“存量”;而移动互联网和物联网的发展,大大丰富了大数据的采集渠道,来自外部社交网络、可穿戴设备、车联网、物联网及政府公开信息平台的数据将成为大数据增量数据资源的主体。

当前,移动互联网的深度普及为大数据应用提供了丰富的数据源。根据中国互联网络信息中心(CNNIC)的报告,截至2017年12月,我国网民规模达7.72亿,普及率达到55.8%,超过全球平均水平(51.7%)4.1个百分点。全年共计新增网民4074万人,增长率为5.6%。我国手机网民规模达7.53亿,网民中使用手机上网的人群占比由2016年的95.1%提升至97.5%。线下企业通过与互联网企业的合作,或者利用开放的应用编程接口(API)或网络爬虫,可以采集到丰富的网络数据,可以作为内容数据的有效补充。

另外,快速发展的物联网也将成为越来越重要的大数据资源提供者。相对于现有互联网数据杂乱无章和价值密度低的特点,通过可穿戴、车联网等多种数据采集终端定向采集的数据资源更具利用价值。例如,智能化的可穿戴设备经过几年的发展,智能手环、腕带、手表等可穿戴设备正在走向成熟,智能自行车等设备层出不穷。根据IDC公司预计,到2020年之前,可穿戴设备市场的年复合增长率将为20.3%,而2020年将达到2.136亿台。可穿戴设备可以7×24小时不间断地收集个人健康数据,在医疗保健领域有广阔的应用前景,一旦技术成熟,设备测量精度达到医用要求,电池续航能力也有显著增强,就很可能会进入大规模应用阶段,从而成为重要的大数据来源。例如,车联网已经进入快速成长期,据国外公司预计,2016年前,车联网市场渗透率将达到19%,在未来5年内迎来发展黄金期,2020年将达到49%。

不过,值得注意的是,即便外部数据越来越丰富,但可获取性还不够高,一方面受目前技术水平所限,车联网、可穿戴设备等数据采集精度、数据清洗技术和数据质量还达不到实用要求;另一方面,由于体制机制原因,导致行业和区域上的条块分割、数据割据和孤岛普遍存在,跨企业、跨行业数据资源的融合仍然面临诸多障碍。根据中国信息通信研究院对国内800多家企业的调研来看,有50%以上的企业把内部业务平台数据、客户数据和管理平台数据作为大数据应用最主要的数据来源。企业内部数据仍是大数据的主要来源,但对外部数据的需求日益强烈。当前,有32%的企业通过外部购买获得数据,只有18%的企业使用政府开放的数据。如何促进大数据资源建设,提高数据质量,推动跨界融合流通,是推动大数据应用进一步发展的关键问题之一。

2. 分布式存储和计算技术夯实了大数据处理的技术基础

大数据存储和计算技术是整个大数据系统的基础。在存储方面,2000年左右,谷歌等提出的文件系统以及随后的Hadoop分布式文件系统HDFS奠定了大数据存储技术的基础。与传统系统相比,GFS/HDFS将计算和存储节点在物理上结合在一起,从而避免在数据密集计算中易形成的I/O吞吐量的制约,同时这类分布式存储系统的文件系统也采用了分布式架构,能达到较高的并发访问能力。

在计算方面,谷歌在2004年公开的MapReduce分布式并行计算技术是新型分布式计算技术的代表。一个MapReduce系统由廉价的通用服务器构成,通过添加服务器节点可线性扩展系统的总处理能力,在成本和可扩展性上都有巨大的优势。谷歌的MapReduce是其内部网页索引、广告等核心系统的基础。之后出现的Apache Hadoop MapReduce是谷歌MapReduce的开源实现,目前已经成为应用最广泛的大数据计算软件平台。

MapReduce架构能够满足“先存储后处理”的离线批量计算需求,但也存在局限性,最大的问题是时延过长,难以适用于机器学习迭代、流处理等实时计算任务,也不适合针对大规模图数据等特定数据结构进行快速运算。为此,业界在MapReduce的基础上提出了多种不同的并行计算技术路线。例如Storm系统是针对“边到达边计算”的实时流计算框架,可在一个时间窗口上对数据流进行在线实时分析,已经在实时广告、微博等系统中得到应用。此外,还出现了将MapReduce内存化以提高实时性的框架,针对大规模图数据进行优化的Pregel系统,等等。

以Hadoop为代表的开源软件大幅度降低数据的存储与计算的成本。传统数据存储和分析的成本约为3万美元/TB,而采用Hadoop技术,成本可以降到300美元~1000美元/TB。新一代计算平台Spark进一步把Hadoop性能提升了30多倍,性能越来越高,技术门槛越来越低。目前,开源Hadoop和Spark已经形成了比较成熟的产品供应体系,基本上可以满足大部分企业建设大数据存储和分析平台的需求,为企业提供了低成本解决方案。

3. 深度神经网络等新兴技术开辟大数据分析技术的新时代

数据分析技术一般分为联机分析处理和数据挖掘两大类。OLAP技术一般基于用户的一系列假设,在多维数据集上进行交互式的数据集查询、关联等操作来验证这些假设,代表了演绎推理的思想方法。

数据挖掘技术一般是在海量数据中主动寻找模型,自动发展隐藏在数据中的模式,代表了归纳的思想方法。传统的数据挖掘算法主要有以下几种。


(1)聚类,又称群分析,是研究(样品或指标)分类问题的一种统计分析方法,针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间的数据的相似性很小,跨类的数据关联性很低。企业通过使用聚类分析算法可以进行客户分群,在不明确客户群行为特征的情况下对客户数据从不同维度进行分群,再对分群客户进行特征提取和分析,从而抓住客户的特点推荐相应的产品和服务。

(2)分类,类似于聚类,但是目的不同,分类可以使用聚类预先生成的模型,也可以通过经验数据找出一组数据对象的共同点,将数据划分成不同的类,其目的是通过分类模型将数据项映射到某个给定的类别中,代表算法是CART(分类与回归树)。企业可以将用户、产品、服务等各业务数据进行分类,构建分类模型,再对新的数据进行预测分析,使之归于已有类中。分类算法比较成熟,分类准确率也比较高,对于客户的精准定位、营销和服务有着非常好的预测能力,帮助企业进行决策。

(3)回归,反映了数据的属性值的特征,通过函数表达数据映射的关系来发现属性值之间的一览关系。它可以应用到对数据序列的预测和相关关系的研究中。企业可以利用回归模型对市场销售情况进行分析和预测,及时做出对应策略的调整。在风险防范、反欺诈等方面也可以通过回归模型进行预警。


传统的数据分析方法,无论是传统的OLAP技术还是数据挖掘技术,都难以应付大数据的挑战。首先是执行效率低。传统数据挖掘技术都是基于集中式的底层软件架构开发的,难以并行化,因而在处理太字节(TB)级以上的数据时效率低。其次是数据分析精度难以随着数据量的提升而得到改进,特别是难以应对非结构化数据。在人类全部数字化的数据中,仅有非常小的一部分(约占总数据量的1%)数值型数据得到了深入分析和挖掘(如回归、分类、聚类),大型互联网企业对网页索引、社交数据等半结构化数据进行了浅层分析,占总量近60%的语音、图片、视频等非结构化数据还难以进行有效的分析。

所以,大数据分析技术的发展需要在两个方面取得突破,一是对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识,如从自然语言构成的文本网页中理解和识别语义、情感、意图等;二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。目前来看,以深度神经网络等新兴技术为代表的大数据分析技术已经得到一定发展。

神经网络是一种先进的人工智能技术,具有自行处理、分布存储和高度容错等特性,非常适合处理非线性的以及模糊、不完整、不严密的知识或数据,十分适合解决大数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART模型为代表。不过,虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。

深度学习是近年来机器学习领域最令人瞩目的方向。自2006年深度学习界泰斗Geoffrey Hinton在《Science》杂志上发表DeepBelief Networks的论文后,激活了神经网络的研究,开启了深度神经网络的新时代。学术界和工业界对深度学习热情高涨,并逐渐在语音识别、图像识别、自然语言处理等领域获得突破性进展,深度学习在语音识别领域的准确率获得了20%~30%的提升,突破了近十年的瓶颈。2012年,图像识别领域在ImageNet图像分类竞赛中取得了85%的Top5准确率,相比前一年74%的准确率有里程碑式的提升,并进一步在2013年将准确率提高到了89%。目前,谷歌、Facebook、微软、IBM等国际巨头,以及国内的百度、阿里巴巴、腾讯等互联网巨头争相布局深度学习。由于神经网络算法的结构和流程特性非常适合大数据分布式处理平台进行计算,通过神经网络领域的各种分析算法的实现和应用,公司可以实现对多样化的分析,并在产品创新、客户服务、营销等方面取得创新性进展。

随着互联网与传统行业融合程度日益加深,对于Web数据的挖掘和分析成为需求分析和市场预测的重要手段。Web数据挖掘是一项综合性的技术,可以从文档结构和使用集合中发现隐藏的输入到输出的映射过程。目前研究和应用比较多的是PageRank算法。PageRank是Google算法的重要内容,于2001年9月被授予美国专利,以谷歌创始人之一拉里·佩奇命名。PageRank根据网站外部链接和内部链接的数量和质量衡量网站的价值。这个概念的灵感来自于学术研究中的一种现象,即一篇论文被引述的频率越高,一般会判断这篇论文的权威性和质量越高。在互联网场景中,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这就是所谓的链接流行度,可以衡量多少人愿意将他们的网站和你的网站挂钩。

需要指出的是,数据挖掘与分析的行业与企业特点强,除了一些最基本的数据分析工具外,目前还缺少针对性的、一般化的建模与分析工具。各个行业与企业需要根据自身业务构建特定的数据模型。数据分析模型构建的能力强弱成为不同企业在大数据竞争中取胜的关键。

3.7.3 重点行业的大数据应用

传统的数据应用主要集中在对业务数据的统计分析,作为系统或企业的辅助支撑,应用范围以系统内部或企业内部为主,例如各类统计报表、展示图表等。伴随着各种随身设备、物联网和云计算、云存储等技术的发展,数据内容和数据格式多样化,数据颗粒度也愈来愈细,随之出现了分布式存储、分布式计算、流处理等大数据技术,各行业基于多种甚至跨行业的数据源相互关联探索更多的应用场景,同时更注重面向个体的决策和应用的时效性。因此,大数据的数据形态、处理技术、应用形式构成了区别于传统数据应用的大数据应用。

一方面,大数据在各个领域的应用持续升温;另一方面,大数据的效益尚未充分验证。大多数的大数据系统尚处于早期部署阶段,因此它们的投资回报还未得到充分验证。大数据前景很美好,同时也可能存在“忽悠”出来的“泡沫”成分。整体来看,大数据应用尚处于从热点行业领域向传统领域渗透的阶段。中国信息通信研究院的调查显示,大数据应用水平较高的行业主要分布在互联网、电信、金融行业,一些传统行业的大数据应用发展较为缓慢。

1. 电信领域

电信行业掌握体量巨大的数据资源,单个运营商的手机用户每天产生的话单记录、信令数据、上网日志等数据就可以达到拍字节(PB)级规模。电信行业利用IT技术采集数据改善网络运营、提供客户服务已有数十年的历史,而传统处理技术下,运营商实际上只能用到其中百分之一左右的数据。

大数据对于电信运营商而言,一是意味着利用廉价、便捷的大数据技术提升其传统的数据处理能力,聚合更多的数据提升洞察能力。例如,美国T-Mobile借助大数据加快了诊断网络潜在问题的效率,改善服务水平,为客户提供了更好的体验,获得了更多的客户以及更高的业务增长。中国移动、德国电信利用大数据技术加大对历史数据的分析,动态优化调整网络资源配置,大幅提高无线网络的运行效率。T-Mobile通过集成数据综合分析客户流失的原因,在一个季度内将客户流失率减半。SK电讯成立SK Planet公司专门处理与大数据相关的业务,通过分析客户的使用行为防止客户流失。中国联通利用大数据技术对全国3G/4G用户进行精准画像,形成大量有价值的标签数据,为客户服务和市场营销提供了有力支持。中国移动通过对消费、通话、位置、浏览、使用和交往圈等数据的分析,利用各种联系记录发现各种圈子,分析影响力及关键人员,用来进行家庭客户、政企客户和关键客户的识别,以实现主动营销和客户维系。

二是提高数据意识,寻求合适的商业模式,尝试数据价值的外部变现。主要有数据即服务(Data-as-a-Service, DaaS)和分析即服务(Analytics-as-a-Service, AaaS)两种模式,数据即服务模式往往通过开放数据或开放API的方式直接向外出售脱敏后的数据;分析即服务模式往往与第三方公司合作,利用脱敏后的(自身或整合外部)数据资源为政府、企业或行业客户提供通用信息、数据建模、策略分析等多种形式的信息和服务,以创造外部收益,实现数据资源变现。

数据即服务方面,AT&T将客户在WiFi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告公司获取可观收益;英国电信基于安全数据分析服务Assure Analytics,帮助企业收集、管理和评估大数据集,将这些数据通过可视化的方式呈现给企业,帮助企业改进决策;德国电信和沃达丰主要尝试通过开放API,向数据挖掘公司等合作方提供部分用户匿名的地理位置数据,以掌握人群出行规律,有效地与一些LBS应用服务对接。限于国内对数据交易流通方面缺乏明确规定,国内运营商很少尝试数据即服务模式。

分析即服务方面,西班牙电信成立了动态洞察部门Dynamic Insights开展大数据业务,与市场研究机构Gfk进行合作,在英国、巴西推出名为智慧足迹的创新产品,该产品基于完全匿名和聚合的移动网络数据,可对某个时段、某个地点人流量的关键影响因素进行分析,并将洞察结果面向政企客户提供;Verizon成立精准营销部门(Precision Marketing Division),提供精准营销洞察、精准营销、移动商务等服务,包括联合第三方机构对其用户群进行大数据分析,再将有价值的信息提供给政府或企业获取额外价值;中国电信在大数据RTB精准广告业务(根据客户行为和位置分析进行商铺选址和实施营销)、景区流动人口监测业务、基于客户行为的中小微企业通用信用评价等方面均有尝试,且成效显著,借助对不同行业、不同类型企业的行为数据分析,中国电信的“贷189”平台,一个月吸引了中小企业580家、金融机构24家,订单成交额达3368万元。中国移动和中国联通也与第三方合作,开展智慧旅游、智能交通、智慧城市等项目,探索数据外部变现的新型商业模式,寻找新的业务增长点。

2. 金融领域

金融行业是信息产业之外大数据的又一重要应用领域,大数据在金融三大业务——银行、保险和证券中均具有较为广阔的应用前景。总体来说,金融行业的主要业务应用包括企业内外部的风险管理、信用评估、借贷、保险、理财、证券分析等,都可以通过获取、关联和分析更多维度、更深层次的数据,并通过不断发展的大数据处理技术得以更好、更快、更准确的实现,从而使得原来不可担保的信贷可以担保,不可保险的风险可以保险,不可预测的证券行情可以预测。

利用大数据可以提升金融企业内部的数据分析能力。中信银行信用卡中心从2010年开始引入大数据分析解决方案,为企业中心提供了统一的客户视图。借助客户统一视图可以从交易、服务、风险、权益等多个层面获取和分析数据,对客户按照低、中、高价值来进行分类,根据银行整体经营策略积极地提供相应的个性化服务,在降低成本的同时大幅提升精准营销能力。更多的金融企业利用大数据技术整合来自互联网等渠道的更多的外部数据。

淘宝网的“阿里小贷”依托阿里巴巴(B2B)、淘宝、支付宝等平台数据,海量的交易数据在阿里的平台上运行,阿里通过对商户最近100天的数据分析,准确地把握商户可能存在的资金问题。美国的Lending Club通过获取eBay等公司的网店店主的销售记录、信用记录、顾客流量、评论、商品价格和存货等信息,以及他们在Facebook和Twitter上与客户的互动信息,借助数据挖掘技术,把这些店主分成不同的风险等级,以此来确定提供贷款金额数量与贷款利率的水平。

众安保险不断改进其数据分析模型和挖掘手段,构建了强大的大数据能力,推出了针对高频小额事件的运费险。国内一款互联网车险产品利用手机获取车主驾驶行为的数据,结合车型因子、违章历史数据、个人信用数据等维度信息,对车主安全行为画像,从而进行风险定价。IBM使用大数据信息技术成功开发了“经济指标预测系统”,可通过统计分析新闻中出现的单词等信息来预测股价等走势。另外,英美甚至国内都有基于社交网络的证券投资的探索,根据从Twitter、微博等社交网络数据内容感知的市场情绪来进行投资。

3. 政务领域

大数据的政务应用获得了世界各国政府的日益重视。美国2012年启动了“大数据研究和发展计划”,日本2013年正式公布以大数据为核心的新IT国家战略,英国政府通过高效地使用公共大数据技术每年可以节省330亿英镑,相当于英国人每人每年节省500英镑。我国政府也非常重视利用大数据提升国家治理能力。《国务院关于印发促进大数据发展行动纲要的通知》提出“大数据成为提升政府治理能力的新途径”,要“打造精准治理、多方协作的社会治理新模式”。

首先,大数据有助于提升政府提供的公共产品和服务。一方面,基于政务数据共享互通,实现政务服务一号认证(身份认证号)、一窗申请(政务服务大厅)、一网办事(联网办事),大大简化了办事手续。另一方面,通过建设医疗、社保、教育、交通等民生事业大数据平台,有助于提升民生服务,同时引导鼓励企业和社会机构开展创新应用研究,深入发掘公共服务数据,有助于激发社会活力、促进大数据应用市场化服务。

其次,大数据支持宏观调控科学化。政府通过对各部门、社会企业的经济相关数据进行关联分析和融合利用,可以提高宏观调控的科学性、预见性和有效性。比如电商交易、人流、物流、金融等各类信息的融合交汇可以绘出国家经济发展的气象云图,帮助人们了解未来经济走向,提前预知通货膨胀或经济危机。

再次,大数据有助于政府加强事中、事后的监管和服务,提高监管和服务的针对性、有效性。《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》(国办发〔2015〕51号)提出了4项主要目标:一是提高政府运用大数据的能力,增强政府服务和监管的有效性;二是推动简政放权和政府职能转变,促进市场主体依法诚信经营;三是提高政府服务水平和监管效率,降低服务和监管成本;四是实现政府监管和社会监督有机结合,构建全方位的市场监管体系。“大数据综合治税”“大数据信用体系”等以大数据融合加强企业事中、事后监管的新模式的探索正在全国各地展开。

最后,大数据有助于推动权利管控精准化。借助大数据实现政府负面清单、权利清单和责任清单的透明化管理,完善大数据监督和技术反腐体系,促进政府依法行政。李克强在了解贵阳利用执法记录仪和大数据云平台监督执法权力情况时说,要把执法权力关进“数据铁笼”,权力运行处处留痕,实现“人在干、云在算”。

总之,大数据超越了传统行政的思维模式,推动政府从“经验治理”转向“科学治理”。随着国家大数据战略渐次明细,各方实践逐步展开,大数据在政府领域的应用将迎来高速发展。

4. 交通领域

交通数据资源丰富,具有实时性特征。在交通领域,数据主要包括各类交通运行监控、服务和应用数据,如公路、航道、客运场站和港口等视频监控数据,城市和高速公路、干线公路的各类流量、气象检测数据,城市公交、出租车和客运车辆的卫星定位数据,以及公路和航道收费数据等,这些交通数据类型繁多,而且体积巨大。此外,交通领域的数据采集和应用服务均对实时性要求较高。目前,大数据技术在交通运行管理优化、面向车辆和出行者的智能化服务,以及交通应急和安全保障等方面都有着重大发展。

在出行方面,面向公众出行信息需求,整合交通出行服务信息,在公共交通、出租汽车、道路交通、公共停车、公路客运等领域扩大信息服务覆盖面,使公众出行更便捷。可以提供综合性、多层次信息服务,包括交通资讯、实时路况、公交车辆动态信息、停车动态信息、水上客运、航班和铁路等动态信息服务以及出行路径规划、出租招车等信息交互服务。例如,滴滴、Uber打车软件提供出租车、快车、专车、顺风车服务,同时接入地图、路线查询、实时路况、在线支付等相关服务。智能停车软件也进入市场,如停简单、好停车、PP停车等,实现停车行业与动态交通的有效衔接。

在物流方面,物流数据可以为物流市场预测、物流中心选址、优化配送线路、仓库储位优化等提供支撑,甚至能够提供交通路况、车辆运行、社会经济发展动态的信息。对于跨境物流,整合集口岸监管、物流运输、航运信息,可以实现物流产业链的业务单据、车辆船舶动态、通关状态等要素信息的跨行业、跨区域贯通,提高物流效率。

在管理方面,利用交通行业数据支撑交通管理与决策。利用数据挖掘技术可以深入研究交通网优化,为行业发展趋势研判、政策制定及效果评估等提供支撑保障。此外,交通与公安、城管、环保等相关职能部门的大数据平台对接,可以提高跨领域管理能力。在运营方面,整合行业数据,形成地面公交、出租汽车、轨道交通、路网建设、汽车服务、港口、航空等领域的一体化智能管理。通过车载、运营数据的精确、实时采集可以实现公交调度、行车安全监控、公交场站管理,支持公交安全、服务、成本管控的全过程管理和交互。通过打通出租汽车电调平台与互联网招车平台之间的信息渠道,可以提供多渠道便捷的招车服务,实现对出租汽车服务质量的动态跟踪、评估和管理。对轨道交通线网基础设施、运行状况、运营数据、服务质量、隐患治理、安全保护区等进行监测,可以实现安全管理和应急协同。

5. 医疗领域

医疗卫生领域每年都会产生海量的数据,一般的医疗机构每年会产生1TB~20TB的相关数据,个别大规模医院的年医疗数据甚至达到了拍字节(PB)级别。从数据种类上来看,医疗机构的数据不仅涉及服务结算数据和行政管理数据,还涉及大量复杂的门诊数据,包括门诊记录、住院记录、影像学记录、用药记录、手术记录、医保数据等,作为医疗患者的医疗档案,颗粒度极为细致。所以医疗数据无论从体量还是种类上来说都符合大数据的特征,基于这些数据,可以有效辅助临床决策支撑临床方案。同时,通过对疾病的流行病学分析,还可以对疾病危险进行分析和预警。

临床中遇到的疑难杂症,有时即便是专家也缺乏经验,很难做出正确的诊断,治疗也更加困难。临床决策支持系统可以通过海量文献的学习和不断的错误修正给出最适宜的诊断和最佳治疗。大数据分析技术将使临床决策支持系统更智能,这得益于对非结构化数据的分析能力日益加强。比如可以使用图像分析和识别技术识别医疗影像(X光、CT、MRI)数据,或者挖掘医疗文献数据,建立医疗专家数据库,从而给医生提出诊疗建议。此外,临床决策支持系统还可以使医疗流程中大部分的工作流向护理人员和助理医生,使医生从耗时过长的简单咨询工作中解脱出来,从而提高治疗效率。以IBM Watson为代表的临床决策系统在开发之初只是用来进行分诊的工作。而如今,通过建立医疗文献及专家数据库,Watson已经可以依据与疗效相关的临床、病理及基因等特征,为医生提出规范化临床路径及个体化治疗建议,不仅可以提高工作效率和诊疗质量,也可以减少不良反应和治疗差错。在美国儿科重症病房的研究中,临床决策支持系统就避免了40%的药品不良反应事件。世界各地的很多医疗机构已经开始了比较效果研究(Comparative Effectiveness Research, CER)项目并取得了初步成功。

大量的基因数据、临床实验数据、环境数据以及居民的行为与健康管理数据形成了“大数据”,同时随着人类对疾病与基因之间映射关系认识的加深,基因测序成本的下降,可穿戴设备的普及,监控设备的微型化,移动连接和网络覆盖范围的扩大和大数据处理能力的大幅提升,针对患者个体的精准医疗和远程医疗成为可能。通过收集和分析数据,医生可以更好地判断病人的病情,可实现计算机远程监护,对慢性病进行管理。通过对远程监控系统产生的数据进行分析,可以减少病人住院的时间,减少急诊量,实现提高家庭护理比例和门诊医生预约量的目标。

公共卫生部门可以通过覆盖全国的患者电子病历数据库快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序快速进行响应。百度通过对全国各地的用户产生的搜索日志的分析,提供全国331个地级市、2870个区县的疾病态势。百度还准备将社交媒体数据、问答社区数据,甚至是各地区天气变化、各地疾病人群迁徙等特征数据融合到预测里,进一步提高预测的准确性。很多研究者试图利用其他渠道(比如社交网站)的数据来预测流感。纽约罗切斯特大学的一个数据挖掘团队就曾利用Twitter的数据进行了尝试,研究者在一个月内收集了60余万人的440万条Twitter信息,挖掘其中的身体状态信息。分析结果表明,研究人员可以提前8天预报流感对个体的侵袭状况,而且准确率高达90%。

基因测序研究一直是大数据应用的重点领域,随着大数据处理能力的不断提升,该领域的研究也进展显著。随着计算能力和基因测序能力逐步增加,美国哈佛医学院个人基因组项目负责人詹森·鲍比认为,2015年会有5000万人拥有个人基因图谱,而一个基因组序列文件大小约为750MB。成立于2011年的初创公司Bina Technology主要从事的工作就是利用大数据来分析人类的基因序列,其分析成果将为研究机构、临床医师等下游医疗服务行业提供最基础的研究素材。在同斯坦福大学研究者进行的试点研究结果表明,Bina Technology平台利用大数据处理技术在5个小时内可完成几百人的基因序列分析,按照传统的分析方法需要花费一周时间来完成。

6. 旅游领域

在旅游行业,大数据平台可以收集互联网,例如论坛、博客、微博、微信、电商平台、点评网等有关旅游的评论数据,通过对大数据进行分词、聚类、情感分析,了解游客的消费习惯、价值取向,从而全面掌握旅游目的地的供需状况及市场评价,为政府和涉旅企业做决策提供依据。

7. 环保领域

在生态环境领域,我国正在加快建设布局合理、功能完善的生态环境监测网络,实现对环境质量、重点污染源、生态状况监测的全覆盖。建设生态环境大数据平台,提高环境综合分析、预警预测和协同监管能力,搭建面向社会公众和组织的数据开放和共享平台,打造精准治理、多方协作的生态环境治理新模式。我国正在加强生态环境监测数据资源的开发与应用,开展大数据关联分析,为生态环境保护决策、管理和执法提供数据支持。到2020年,基本实现环境质量、重点污染源、生态状况监测全覆盖,各级各类监测数据系统互联共享,监测预报预警、信息化能力和保障水平明显提升,监测与监管协同联动,初步建成陆海统筹、天地一体、上下协同、信息共享的生态环境监测网络。

以上我们从电信、金融、政务、交通、医疗、旅游和环保等几个行业分析了行业大数据应用的典型模式和发展状况。大数据的应用其实是无所不在的,其他行业(如工业、零售业、农业)的应用场景也非常多。但是总体来说,大数据应用尚处于初步阶段,受制于数据获得、数据质量、体制机制、法律法规、社会伦理、技术成本等多方面因素的制约,实际成果还需要时间检验。

3.7.4 大数据应用发展趋势

大数据行业应用的发展是沿袭数据分析应用而来的渐变的过程。观察大数据应用的发展演变可以从技术强度、数据广度和应用深度三个视角切入(见图3-20)。从以上的应用来看,大数据区别于传统的数据分析,有以下特征。

图3-20 大数据应用发展趋势


• 数据方面,逐步从单一内部的小数据向多源内外交融的大数据方向发展,数据多样性、体量逐渐增加。

• 技术方面,从过去以报表等简单的描述性分析为主,向关联性、预测性分析演进,最终向决策性分析技术阶段发展。

• 应用方面,传统数据分析以辅助决策为主,在大数据应用中,数据分析已经成为核心业务系统的有机组成部分,最终生产、科研、行政等各类经济社会活动将普遍基于数据的决策,组织转型成为真正的数据驱动型组织。



中国信息通信研究院调查显示,目前企业应用大数据所带来的主要效果包括实现智能决策、提升运营效率和改善风险管理。在调查中,企业表示将进一步加大在大数据领域的投入。

3.7.5 大数据的产业链构成分析

如图3-21所示,大数据的产业链大致可以分为数据标准与规范、数据安全、数据采集、数据存储与管理、数据分析与挖掘、数据运维及数据应用几个环节,覆盖了数据从产生到应用的整个生命周期。

图3-21 大数据产业链的构成

1. 数据标准与规范

大数据标准体系是开展大数据应用的前提条件,没有统一的标准体系,数据共享、分析、挖掘、决策支持将无从谈起。大数据标准包括体系结构标准、数据格式与表示标准、组织管理标准、安全标准和评测标准。在标准化建设方面,参与单位主要包括各个行业的标准化组织。

2. 数据安全

随着海量数据的不断增加,对数据存储和访问的安全性要求越来越高,从而对数据的访问控制技术、加密保护技术以及多副本与容灾机制等提出了更高的要求。另外,由于大数据处理主要采用分布式计算方法,这必然面临着数据传输、信息交互等环节,如何在这些环节中保护数据价值不泄露、信息不丢失,保护所有站点的安全是大数据发展面临的重大挑战。在大数据时代,传统的隐私数据内涵与外延有了巨大突破和延伸,数据的多元化与彼此的关联性进一步发展,使得对单一数据的隐私保护变得极其脆弱,需要针对多元数据融合的安全提出新的要求。

3. 数据采集

政府部门、以BAT为代表的互联网企业、运营商是当前大数据的主要拥有者。除此之外,利用网络爬虫或网站公开API等途径对网络数据进行采集也是大数据的主要来源。现实世界中的数据大多不完整或不一致,无法直接进行数据挖掘或挖掘结果不理想,需要对采集的数据进行填补、平滑、合并、规格化、检查一致性等数据预处理操作,并且往往需要大量的人工参与,因此数据采集和清洗成为大数据产业链的一个重要环节。

4. 数据存储与管理

大数据存储与管理主要基于Hadoop和MPP。各家企业针对大数据应用开展各具特色的数据库架构和数据组织管理研究,形成针对具体领域的产品。

5. 数据分析与挖掘

大数据分析与挖掘的意图主要集中在两方面:一是从大量的机构结构化和半结构化数据中分析出计算机可以理解的语义信息或知识;二是对隐性的知识(如关联情况、意图等)进行挖掘。常用的方法包括分类、聚类、关联规则挖掘、序列模式挖掘、时间序列分析预测等。数据分析与挖掘的能力直接决定了大数据的应用推广程度和范围,是大数据产业的核心。

6. 数据运维

由于数据的重要性得到普遍认可,除政府部门不具备数据运维服务条件外,数据的采集者通常就是数据运维者。各地政府则通常利用大数据平台建设来推动政府大数据的公开与共享,吸引个人和企业用户开展创新与创业,积极推动大数据的增值服务。

7. 数据应用

大数据对传统信息技术带来了革命性的挑战,正在重构信息技术体系和产业格局。国内企业在国际先进的开源大数据技术基础上,形成了独立的大数据平台构建和应用服务解决方案,以支撑不同行业、不同领域的专业化应用。虽然BAT企业在平台构建上有着得天独厚的优势,但是在某些具体的业务领域,并不擅长或者关注。传统企业以及从事大数据的微型企业是具体业务领域大数据应用的主力军。应用是大数据价值的体现,是大数据发展的原始推动力。当前大数据的应用正倒逼软件技术、数据架构、数据共享方式的转变,在这个过程中需要积极转变思想,明确数据共享的方式是什么,数据拥有者的利益如何平衡,商业模式如何开展,等等。

目前来看,许多企业在大数据产业链里仅拥有一项或两项能力是完全不够的,只有将大数据产业链融合连通才能催生更大的市场和利润空间。在大数据推动的商业革命浪潮中,只有打通数据流通变现的商业模式才能创造商业价值,从而在大数据驱动的新生代商业格局中脱颖而出。