大数据时代的互联网架构设计
上QQ阅读APP看书,第一时间看更新

第一节 大数据概述

一、大数据的概念与特征

(一)大数据的概念

对于“大数据”(Big Data),研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和低价值密度四大特征。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。对大数据必然无法用单台的计算机进行处理,而必须采用分布式架构。分布式架构的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据也引起了越来越多的关注。著云台分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据,将这些数据下载到关系型数据库用于分析时会花费很多时间和金钱。大数据分析常和云计算联系在一起,因为要进行实时的大型数据集分析,需要有像MapReduce(简称MR)一样的框架来向数十、数百甚至数千的电脑分配工作。

(二)大数据的特征

当前,较为统一的认识是大数据有四个基本特征:数据量(Volume)大,数据类型(Variety)多,数据处理速度(Velocity)快,数据价值密度(Value)低,即所谓的“4V”特性。这些特性使得大数据有别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,而且更进一步指出数据的复杂形式、数据的快速时间特性以及对数据进行专业化处理以最终获得有价值信息的能力。

1.数据量大

大数据聚合在一起的数据量是非常大的,根据IDC的定义,至少要有超过100TB的可供分析的数据才能被称为大数据,数据量大是大数据的基本属性。导致数据规模激增的原因有很多。首先是随着互联网的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易。以前,只有少量的机构可以通过调查、取样的方法获取数据,同时发布数据的机构也很有限,人们难以在短期内获取大量的数据。而现在,用户可以通过网络非常方便地获取数据,同时用户通过有意地分享和无意地点击、浏览都可以快速地提供大量数据。其次是随着各种传感器的数据获取能力大幅提高,人们获取的数据越来越接近原始事物本身,描述同一事物的数据激增。早期的单位化数据,对原始事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢。而随着数据应用的发展,数据维度越来越高,描述相同事物所需的数据量越来越大。以当前最为普遍的网络数据为例,早期,网络上的数据以文本和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以及Kinect等动作捕捉设备的普及,数据越来越接近真实的世界,数据的描述能力不断增强,数据量本身必将以几何级数增长。此外,数据量大还体现在人们处理数据的方法和理念发生了根本改变。早期,人们对事物的认知受限于获取、分析数据的能力,人们一直利用采样的方法,以少量的数据来近似地描述事物的全貌,样本的数量可以根据数据获取、处理能力来设定。不管事物多么复杂,只要通过采样得到部分样本,使数据规模变小,就可以利用当时的技术手段来进行数据管理和分析。如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,虽然样本数目逐渐逼近原始的总体数据,但在某些特定的应用领域,采样数据可能远不能描述整个事物,反而丢掉大量重要细节,甚至可能使人们得到完全相反的结论。因此,当今有直接处理所有数据而不是只考虑采样数据的趋势。使用所有数据可以带来更高的精确性,从更多的细节来解释事物属性,同时也必然使得要处理的数据量显著增多。

2.数据类型多

数据类型繁多,复杂多变是大数据的重要特性。以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。结构化数据是将事物向便于人类和计算机存储、处理、查询的方向抽象的结果。在抽象的过程中,忽略一些在特定的应用下可以不考虑的细节,抽取了有用的信息。处理此类结构化数据,只需事先分析好数据的意义以及数据间的相关属性,构造表结构来表示数据的属性。数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数据,只需根据其属性,将数据存储在合适的位置,都可以方便地处理、查询,一般不需要为新增的数据显著地更改数据聚集、处理、查询方法,限制数据处理能力的只是运算速度和存储空间。这种关注结构化信息,强调大众化、标准化的属性使得处理传统数据的复杂程度呈线性增长,新增的数据可以通过常规的技术手段处理。而随着互联网与传感器的飞速发展,非结构化数据大量涌现,非结构化数据没有统一的结构属性,难以用表结构来表示,在记录数据数值的同时还需要存储数据的结构,这增加了数据存储、处理的难度。而时下在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻,发送文字邮件,还会上传下载照片、视频,发送微博等非结构化数据。同时,存在于工作、生活中各个角落的传感器也不断地产生各种半结构化、非结构化数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据逐渐成为主流数据。非结构化数据量已占数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10倍到50倍。杜晋国.大数据时代对传统侦查模式的影响.法制博览,2017(8):10-13.在数据激增的同时,新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂、多样的数据形式,这样的数据已经不能用传统的数据库表格来整齐地排列、表示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不同就是是否重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化、体验化的特性使得传统的数据处理方式面临巨大的挑战。

3.数据处理速度快

快速处理数据,是大数据区别于传统海量数据处理的重要特性之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发展与普及,数据的产生、发布越来越容易,产生数据的途径增多,个人甚至成了数据产生的主体之一。数据呈爆炸的形式快速增长,新数据不断涌现,快速增长的数据量要求数据处理的速度也相应地提升,以使大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而会成为快速解决问题的负担。同时,数据不是静止不动的,而是在互联网络中不断流动的,且通常这样的数据的价值是随着时间的推移而迅速降低的。如果数据尚未得到有效的处理,就会失去价值,大量的数据就没有意义了。此外,许多应用要求能够实时处理新增的大量数据,比如有大量在线交互的电子商务应用,就具有很强的时效性。大数据以数据流的形式产生,快速流动,迅速消失,且数据流量通常是不稳定的,会在某些特定时段突然激增,数据的涌现特征明显。而用户对于数据的响应时间通常非常敏感,心理学实验证实,从用户体验的角度看,瞬间(3秒钟)是可以容忍的最大极限。对于大数据应用而言,很多情况下都必须要在1秒钟或者瞬间形成结果,否则处理结果就是过时和无效的。这种情况下,大数据就要快速、持续地实时处理。对不断激增的海量数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。

4.数据价值密度低

数据价值密度低是大数据关注的非结构化数据的重要属性。传统的结构化数据,依据特定的应用,对事物进行了相应的抽象,每一条数据都包含该应用需要考量的信息;而大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,保留了数据的原貌,且通常不对数据进行采样,直接采用全体数据。减少采样和抽象,呈现所有数据和全部细节信息,有助于分析更多的信息,但也引入了大量没有意义的信息,甚至是错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低。以当前广泛应用的监控视频为例,在连续不间断的监控过程中,大量的视频数据被存储下来,许多数据可能无用,对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能只有一两秒,大量不相关的视频信息增加了获取这有效的一两秒数据的难度。而大数据的数据密度低是指对于特定的应用,有效的信息相对于数据整体是偏少的,信息有效与否也是相对的,对于某些应用无效的信息,对于另外一些应用则成为最关键的信息。数据的价值也是相对的,有时一个微不足道的细节数据就可能造成巨大的影响,比如网络中的一条几十个字符的微博,就可能通过转发而快速扩散,导致相关信息大量涌现,其价值不可估量。因此,为了保证对于新产生的应用有足够的有效信息,通常需保存所有数据。这样,一方面使得数据的绝对数量激增;另一方面,使得数据的有效信息的比例不断降低,数据价值密度降低。

从4V角度可以很好地看到传统数据与大数据的区别,如表1-1所示。

表1-1 传统数据与大数据的区别

(三)大数据的来源与类型

大数据的数据可以来自泛互联网、物联网、行业或企业。泛互联网的数据主要由门户网站、电子商务网站、视频网站、博客系统、微博系统等产生的数据构成。这些数据总量一般在PB级到EB级之间,数据量庞大。物联网的数据主要由具有信息采集功能的电子设备产生的数据构成,如摄像头、刷卡设备、传感设备、遥感设备等,这些设备产生的数据价值密度低,但其数据量更庞大,通常是在EB级,如何存储和处理这些数据是大数据面临的挑战。行业或企业的数据主要是管理信息系统产生的数据,常用的管理信息系统包括ERP(Enterprise Resource Planning,企业资源计划)系统、CRM(Customer Relationship Management,顾客关系管理)系统、OA(Office Automation,办公自动化)系统和运营系统等,数据总量一般在GB级和TB级之间。

大数据的数据类型主要有非结构化数据、半结构化数据、结构化数据三种。非结构化数据由图片、文字、音频、视频、日志和网页等内容构成,以文件为单位存储,非结构化数据是存储在分布式文件系统中的。半结构化数据由位置、视频、温度等内容构成,以数据流的形式进入处理系统,处理后也以文件为单位存储,半结构化数据同样也是存储在分布式文件系统中的。结构化数据的内容可以是任何事和物的记录信息,以表格的形式存在,结构化数据一般存储在分布式数据库系统中。对于不同类型的数据,通常可以采用分布式文件或分布式数据库进行存储,采用关系型记录、文本文件或流数据进行数据处理。对于内容构成不同的数据类型,其应用算法也会有所不同。

(四)大数据实例

大数据并非是用于激励和迷惑IT一族的抽象概念,它是世界各地数字活动雪崩的结果。很多数据都是我们在不经意间产生的,我们日常的一举一动都会给大数据留下印记。

在现实的生活中,一分钟也许微不足道,连沏一壶茶都不够,但是数据的产生是一刻也不停歇的。让我们看看美国数据分析公司Domo对于一分钟内到底会有多少数据产生的总结:YouTube用户上传时长为48小时的新视频;电子邮件用户发送204166677条信息;Google(谷歌)收到超过2000000个搜索查询请求;Facebook用户分享684478条内容;消费者在网购上花费272070美元;Twitter用户发送超过100000条微博;Apple(苹果)收到大约47000个应用下载请求;Facebook上的品牌和企业收到34722个“赞”; Tumblr博客用户发布27778个新帖子;Instagram用户分享36000张新照片;Flickr用户添加3125张新照片;Foursquare用户执行2083次签到;571个新网站诞生;WordPress用户发布347篇新博文;移动互联网获得217个新用户。

数据还在不停地增长,并且没有慢下来的迹象。据中国互联网数据中心统计:李志刚.大数据:大价值、大机遇、大变革.北京:电子工业出版社,2012.

(1)淘宝网每天同时在线的商品数量已经超过了8亿件,平均每分钟售出4.8万件商品。

(2)Foursquare用户签到信息达到了200亿条。

(3)Facebook网站上每天的评论达32亿条,每天新上传的照片达3亿张。

(4)YouTube每天的页面浏览次数达到20亿次,一周上传15万部电影,每天上传83万段视频。

(5)新浪微博注册用户已超过3亿人,用户平均每天发布超过1亿条微博。

毫无疑问,地理空间数据奠定了地理信息产业的基础。随着数据的收集、分发、管理和处理技术的进步,地理信息数量呈现出指数级增长态势。

1∶50000地形图是我国的国家基本图,是按规定要求覆盖全部国土范围的精度最高的地形图。1∶50000基础地理信息数据库是由计算机系统管理的1∶50000地形图系统。于2006年初步建成的1∶50000基础地理信息数据库,总数据量为5.3TB,相当于8000张光盘的存储量。“十五”中国测绘工作成就斐然1∶50000数据库工程通过验收.(2006-02-24)[2016-05-03]. http://www.china.com.cn/chinese/MATERIAL/1133979.htm.截至2011年,数据库更新工程完成了19150幅1∶50000地形图的数据更新与完善,对20多万张航空相片和8000多景卫星遥感影像进行了信息处理,工程成果数据量达到12.3 TB。此项工程还建立了全新的数据库管理和服务系统。国家测绘地理信息局.数字中国地理空间框架初步建立.(2011-08-25)[2016-05-03]. http://www.china.com.cn/zhibo/zhuanti/ch-xinwen/2011-08/25/content_23279021.htm.

2006年,谷歌公司的一篇学术论文透露,谷歌地球(Google Earth)的数据量已达70.5TB,其中包括70TB的原始图像和500GB的索引文件。Chang F, Dean J, Ghemawat S, et al.Big table:a distributed storage system for structured data.Symposium on Operating Systems Design and Implementation,2006,26(2):15.而在2010年,据李开复估算,谷歌地球需要至少50万TB(约等于500PB)的海量空间来存储地表的图像。Google云计算将谷歌海洋与谷歌火星带到桌面.(2010-09-26)[2016-05-07].http://www.ccidnet.com/2010/0926/2199259.shtml.

另外,还有一些新兴的与位置相关的大数据。

(1)个人位置数据(Personal Location Data)。其主要来源是带GPS(Global Positioning System,全球定位系统)芯片的设备、移动基站定位(可识别全球近50亿台移动设备的位置)。2009年,全球个人位置数据量已达1~3PB,并以每年20%的速度增长。据预测,到2020年,个人位置应用将为服务提供商带来1000亿美元的收入,为终端用户创造7000亿美元的价值。

(2)可地理定位的照片和视频。地理标签(Geotagging)是向照片、视频、网站、短信息等添加地理标识元数据的过程,是一种地理空间元数据的形式。FlickrFlickr,雅虎旗下图片分享网站。是提供免费及付费数位照片储存、分享方案的线上服务,也提供网络社群服务的平台。其重要特点就是以社会网络的人际关系的拓展与内容的组织为基础。这个网站的功能强大,已超出了一般的图片服务,比如提供联系人服务、组群服务。中有接近2亿个具有地理标签的照片和短视频(PB级)。

(3)可地理定位的超文本网页。地理编码(Geocode)是地理空间属性的组合,例如经度、纬度、海拔高度、坐标参照系、大地测量参考系等。维基百科中有超过544万条具有地理编码的条目(TB级)。The Definitive Geo-Location API For Wikipedia.[2016-06-05].http://wikilocation. org.

下面再来看看,EMC(易安信)EMC为一家美国信息存储资讯科技公司,主要业务为信息存储及管理产品、提供服务和解决方案。等公司作为大数据背后的支持者,如何促使我们以全新的视角洞察我们的生活。

(1)过去十年,EMC公司发出了11.6 EB的存储量,占发出的所有外部存储容量的24%。产生大数据的领域主要包括医学成像、数字音乐、数字图片、智能电网、视频监控、基因测序、社交媒体和手机传感器等。

(2)纽约—泛欧交易所使用软件对其在美国市场所处理的每一笔订单进行分析和存档。2011年,平均每天分析和存档的订单超过20亿笔。

(3)Broad Institute(博德研究所)使用10PB的存储容量执行基因测序。基因测序公司Ambry Genetics的数据量以每年100%的速度增长。

(4)Legend 3D(2D-3D介质转换)曾经为《变形金刚》《蓝精灵》《雨果》《蜘蛛侠》等卖座大片提供特效制作。电影制作过程中,400位艺术家的表演每周生成超过100TB的数据。

(5)美联社提高了高清视频的访问速度。其数据量从2012年的800TB增加到2013年的2.5PB。

(6)2011年,LinkedIn(领英)会员在平台上进行了近42亿次专业化搜索。2012年这个数字超过了53亿。

(7)依靠相关技术的支持,Silver Spring Networks(银泉网络)能够在1分钟时间内分析超过100万个智能电表的数据。

(8)美国国家棒球名人堂博物馆运营的平台上存储了50万张照片、1.2万小时的音频和视频、300万个文档和4万个三维制品等。

(9)eBay(易贝)拥有900万用户,每天存储和管理的对象超过5亿个。

(10)JFX Archive存储了840万份来自个人、国会和总统的文件,以及4000万份与政府有关的人员的文件。同时,档案中还有40万张照片、9000小时的录音和1200小时的录像。

(11)Stereo D公司和Deluxe Entertainment公司通过技术手段实现3D渲染。将来,3D电影的数据量有望达到10PB。

(12)由于交互式音频和视频内容市场的扩大,拥有200年历史的出版商John Wiley and Sons在2010年到2011年期间存储数据量从15TB增加到150TB。

(13)美国足球队Fulham使用设备存储所有闭路监控视频,其使用的27个摄像头的分辨率非常高,可以读取60米远的号码牌。

(14)DigitalGlobe的图像库使用了2PB的存储容量,存储了18.7亿平方千米的地球图像。

(15)美国国会图书馆每年可对75万到100万条书目进行数字化。

(16)ComScore公司每个月可以处理1万亿份客户记录,远远超过2011年的每月4730亿份。

二、大数据的发展与前景

(一)大数据的发展历程

大数据作为一个专有名词迅速成为全球的热点,主要是因为近年来互联网、云计算、移动通信和物联网迅猛发展。无所不在的移动设备、无线传感器、智能设备和科学仪器每分每秒都在产生数据,面向数以亿计的用户的互联网服务时时刻刻都在产生大量的交互数据。要处理的数据量实在是太大,数据增长速度实在太快,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高的要求,传统的常规技术手段根本无法应付。Schwab K.Big data, big impact, new possibilities for international development.2012.图1-1展示了大数据的发展历程。

图1-1 大数据的发展历程

从2009年开始,大数据逐渐成为互联网信息技术行业的关注热点。2011年5月,麦肯锡全球研究院发布题为《大数据:创新、竞争和生产力的下一个前沿领域》的报告,正式提出了“大数据”这个概念。该报告描述了已经进入每个部门和经济领域的数字型数据的状态和其成长中的角色,并提出充分的证据表明大数据能显著地为国民经济做出贡献,为整个世界经济创造实质性的价值。

该报告深入研究了五个领域来观察大数据是如何创造出价值的,并研究了大数据的变革潜力。这五个领域包括美国医疗卫生、欧洲联合公共部门管理、美国零售业、全球制造业和个人地理位置信息。这五个领域不仅代表了全球经济的核心领域,也说明了一系列区域性的观点。通过对这五个领域的详细分析,该报告提出了五个可以利用大数据的变革潜力创造价值的、广泛适用的方法,具体如下。

(1)创造透明度,让相关人员更容易地及时获得大数据,以此来创造巨大的价值。

(2)通过实验来发现需求、呈现可变性和增强绩效。越来越多的公司在以数字化的形式收集和存储大量非常详细的商业交易数据。因为这样不仅可以访问这些数据,有时还可以控制数据生成的条件,所以最终的决策可能会截然不同。这其实就是将更加科学的方法引入管理中,特别是决策者可以设计和实施实验,经过严格的定量分析后再做出决策。

(3)细分人群,采取灵活的行动。利用大数据,可以创建精细的分段,精简服务,更精确地满足顾客的需求。这种方法在市场和风险管理方面比较常见,像公共部门管理这样的领域也可以借鉴。

(4)用自动算法代替或帮助人工决策。精密的分析算法能够实质性地优化决策,减少风险,发掘有价值的观点,而大数据能提供用于开发精密分析算法或算法需要操作的原始数据。

(5)创新商业模式、产品和服务。因为有了大数据,所以所有类型的企业都可以创新产品和服务,改善现有的产品和服务,并开发全新的商业模式。

这份报告在互联网上引起了强烈的反响。报告发布后,“大数据”迅速成为计算机行业的热门概念。在此之后,包括IBM、Microsoft(微软)、EMC等在内的国际IT巨头公司纷纷通过收购大数据相关的厂商来实现技术整合,积极部署大数据战略。Big Data is a big deal.(2012-03-29)[2016-04-05].https://obamawhitehouse.archives. gov/blog/2012/03/29/big-data-big-deal.2011年5月,EMC举办了主题为“云计算遇上大数据”的全球会议,IBM则发布了大数据分析软件平台InfoSphere BigInsights和InfoSphere Streams,将Hadoop开源平台与IBM系统整合起来。2011年7月至8月,Yahoo(雅虎)、EMC及Microsoft先后推出了基于Hadoop的大数据处理产品。

2012年1月,大数据成为瑞士达沃斯全球经济论坛的主题,论坛发布了一份题为《大数据,大影响》的报告,宣称数据已经成为一种新的经济资产类别,就像货币或黄金一样。

2012年3月,美国政府宣布投资2亿美元用于大数据领域,并把大数据定义为“未来的新石油”。白宫科技政策办公室在2012年3月29日发布《大数据研究和发展计划》,并组建“大数据高级指导小组”。Pulse UG.Big data for development:opportunities & challenges.(2012-01-22)[2016-05-05 ].http://reports.weforum.org/big-data-big-impact-new-possibilities-for-international-development-info/.此举标志着美国把如何应对大数据技术革命带来的机遇和挑战,提高到国家战略层面,形成全体动员格局。随后在全球掀起了一股大数据的热潮。

2012年7月,联合国“全球脉动”计划发布了《大数据促发展:挑战与机遇》白皮书。该计划旨在通过对互联网实时数据的分析,更及时地了解人们所面临的困难和挑战,并提出改善这些境况的决策,为宏观经济的发展决策提供支持。

2012年10月,中国计算机学会成立了大数据专家委员会。委员会的宗旨包括三个方面:探讨大数据的核心科学与技术问题,推动大数据学科方向的建设与发展;构建面向大数据产学研用的学术交流、技术合作与数据共享平台;为相关政府部门提供大数据研究与应用的战略性意见与建议。委员会还成立了五个工作组,分别负责大数据相关的会议(学术会议、技术会议)组织、学术交流、产学研用合作、开源社区与大数据共享联盟等方面的工作。这标志着大数据在我国信息技术领域的地位得到确立。

(二)大数据的机遇与挑战

对当今企业而言,大数据既是绝佳的商机,也是巨大的挑战。当今企业的高速发展及数字世界所创造的海量数据,要求采用新方法从数据中提取价值。在结构化和非结构化数据流背后,隐藏着一些问题的答案。但是,企业甚至都没有想到问这些问题,或者由于技术限制尚未能提出这些问题。大数据迫使企业寻找接近数据的新方式并一一找出其中蕴藏着什么以及如何对其加以利用。存储、网络和计算技术领域的最新发展使得企业能经济、高效地利用大数据并使其成为形成业务优势的有力来源。Gupta R, Gupta H, Mohania M.Cloud Computing and Big Data Analytics:What Is New from Databases Perspective? Berlin:Springer,2012.

Forrester Research公司估计,企业仅能有效利用不到5 %的可用数据,这是因为要处理其余数据的代价不菲。大数据的技术和方法是一项重要进步,因为它们使得企业能经济高效地处理被忽视的那95%的数据。如果两家公司以相同的效率利用数据,其中一家处理15%的数据,而另一家只能处理5%,哪家公司更有可能胜出?企业若能发掘大数据来改善战略并提升执行能力,也就代表他们正在拉开与竞争者的距离。

如果使用正确,大数据可以带来洞察力,从而有助于制定、改善和重导业务计划,发现运营路障,简化供应链,更好地理解客户,开发新的产品、服务和业务模式。尽管企业对大数据的有用性有了清晰的认识,但通往大数据生产率的道路仍不明确。成功利用大数据洞察力要求在成熟技术、新式工作人员技能和领导力重心方面具有实际投入。

企业嗅到了大数据蕴藏的商业价值,并清楚地认识到必须加快将大数据进化成超越传统意义的商业智能,方法就是在每个决策核心中应用数据分析。

以消费品生产和零售业为例Bill Schmarzo.大数据分析:借助大数据和高级分析获得竞争优势.EMC视点,2011.,从20世纪70年代到80年代早期,包装消费品生产商和零售商在经营业务时会参考AC Nielsen半月刊市场报告。这些报告提供了竞争对手和市场的数据(如收入、销售量、平均价格和市场份额等),生产商借此来确定销售、营销、广告和促销战略、计划,以及与渠道合作伙伴(如分销商、批发商和零售商)相关的开支。到20世纪80年代中期,Information Resources Inc.(IRI)推行在零售地点安装免费的销售点扫描器,俗称“POS机”,以交换其中的销售数据。零售商愉快地接受了这样的交换,因为劳动力是他们的最大成本构成,而且那时他们对POS机数据的价值认识很有限。这种在当时被视为大数据的POS机数据改变了游戏规则、经营业务方式,行业内(在生产商和销售商之间)的权力也发生了转变。数据量从MB级上升到TB级,催生了新一代存储和服务器平台,以及各种分析工具。沃尔玛等前沿公司利用这种新的大数据和新的分析平台与工具获得了竞争优势。这些公司率先开发了新类别的大数据、分析驱动型业务应用程序,以一种具有成本效益的方式解决了之前不能如此解决的业务问题,例如基于需求的预测、供应链优化、交易支出有效性分析、市场购物篮分析、分类管理和商品阵列优化、价格/收益优化、商品减价管理、客户忠诚度计划等。30年后,一切似乎又回到了从前。对新的、低延迟的、细粒度的、多样化的数据源(大数据)的开发具有改变企业和行业运营方式的潜力。这些新的数据源来自于一系列设备、客户交互和业务活动,能揭示对企业和行业价值链的深刻见解。随着这些更详细的新数据源的出现,各大企业又发现了以前未察觉的商机,引发了创造新业务应用程序系列的热潮。然而,要实现这一切,还需要新的平台(基础架构)和工具(分析)。

数据需要一种可以让业务和技术都获得竞争优势的新型分析平台。新平台对海量数据集具有更高级别的处理能力,不仅能让企业不断地对大数据内蕴藏的可操作性提出深刻见解,还能实现与用户网络环境的无缝集成(无位置限制)。这种新的分析平台能够让企业的对海量数据和改进业务决策进行前瞻式预测分析,让企业从回顾性报告的旧方式中解脱出来。

然而,处理新的大数据,对平台提出了如下三个重大的挑战。EMC咨询服务部.利用大数据获得竞争优势:分析带来改变游戏规则的商机.2011.

1.线性可扩展性支持分析大型数据集

(1)可实现对大规模数据集(TB级到PB级)的分析。这至关重要,因为多数大数据项目开始的时候规模很小,但随着业务部门的持续使用,规模会迅速变大。

(2)对海量数据的利用意味着能以完全不同的方式解决业务问题。

2.低延迟数据访问有助于加快决策

(1)许多商机都是一闪即逝的,所以只有那些能够最快地从数据中发现商机并采取行动的企业才能实现商业价值。

(2)缩短数据事件与数据可供使用这两者之间的时间,让运营分析成为现实。

3.集成数据分析帮助实现新业务应用程序

(1)将分析集成到与数据仓库和商情相同的环境中,将加快分析生命周期流程,并使分析结果更快地实现可操作化或能够据此采取行动。

(2)业务用户对数据、图表和报告选项的需求已经饱和,不管如何优雅地推出它们,都没有太多必要了。业务用户需要的是一种能为其业务找出并提供可操作的实质性见解的解决方案。

新平台帮助实现分析的数据类型让企业可以大大加快分析过程,并且更轻松地将分析结果重新集成到数据仓库和商情环境中。在此过程中,它将带来一些新的商机。

大数据是一股席卷所有行业、领域和经济体的“破坏性”力量。不仅企业信息技术体系结构需要改变以适应它,而且几乎企业内的所有部门都需要针对其提供的信息、揭示的洞察力做出调整。数据分析将成为业务流程的一部分,而不再是仅由经过培训的专业人员履行的独特职能。

而这仅仅是开始。一旦企业开始利用大数据获得洞察力,他们根据该洞察力采取的行动就将具有改进业务的潜能,这一点目前已得到证实。如果营销部门能通过分析社交网络评论获得对有关新品牌推广活动的即时反馈,焦点小组访谈和客户调查是否会变得过时?敏锐地了解到大数据价值的新公司不仅会给现有的竞争对手带来挑战,还可以开始定义所在行业的经营方式。随着企业努力、快速地理解之前所不能捕获的概念,如情感和品牌认知,企业与客户关系也将发生转变。

发挥大数据的巨大潜能要求对数据管理、分析和信息智能进行全盘考虑。在各个行业,领先利用大数据的企业将能提升运营效率,开创新的收入流,发掘差异竞争优势及全新的业务模式。企业应开始从战略角度考虑如何针对大数据准备其发展。

(三)大数据的发展前景

大数据由于其本身附带或隐含特殊的价值,被类比为新时代的石油、黄金,甚至被视为“一种与资本与劳动力并列的新经济元素”。也就是说,大数据不仅在生产过程中形成产品和产生价值的环节中起着重要的作用,而且其本身更是作为像资本和劳动力这样的生产要素,是产品生产中不可或缺的元素,也是最终产品中不可分割的一部分。

赛迪顾问公司2012年的《大数据产业生态战略研究》报告指出,大数据将在以下三个方面发挥巨大的作用。李国杰.大数据研究的科学价值.中国计算机学会通讯,2012,8(9):8-15.

1.大数据为新一代信息技术产业提供核心支撑

大数据问题的爆发以及大数据概念在全球的普及,是现代信息技术发展的必经阶段。互联网以及移动网络的飞速发展使得网络基础设施无所不在,网络带宽也在不断拓展。最新的移动4G LTE网络将支持166 Mbps的峰值下载速度,下载一部蓝光电影只需4分钟,这使得人们能够随时随地进行数据访问。而云计算、物联网、社交网络等新兴事物的兴起和发展,则使得每时每刻都在以前所未有的速度产生新数据。比如随着智能电表的普及,电表数据的采集频率由原来的一天一次增加到每15分钟一次,也就是一天96次,总的数据采集规模将达到原来的近2万倍。大数据是信息技术和社会发展的产物,而大数据问题的解决又会促进云计算、物联网等新兴信息技术的真正落地和应用。大数据正成为未来新一代信息技术融合应用的核心,为云计算、物联网、移动互联网等各项新一代信息技术相关的应用提供坚实的支撑。

2.大数据正成为社会发展和经济增长的高速引擎

大数据蕴含着巨大的社会、经济和商业价值。大数据市场的井喷会催生一大批面向大数据市场的新模式、新技术、新产品和新服务,进而促进信息产业的加速发展。同时大数据影响着我们工作、生活和学习的方方面面,大到国家发展战略、区域经济发展以及企业运营决策,小到个人每天的生活。

从国家发展战略层面上来说,大数据对于全球经济、国计民生、政策法规等方面都至关重要,美国政府把大数据的研究和发展上升到国家战略层面正是出于这方面的考虑。实际上,奥巴马竞选连任的成功,就是依赖大数据的威力。奥巴马团队在竞选取胜中发挥重要作用的数据分析团队被称为“核代码”,其重要性显而易见。在大选前的两年中,他的数据分析团队就一直在收集、存储和分析选民数据。大选中的很多战略方案都是通过分析这些数据制定出来的,包括如何筹集竞选资金,如何进行广告投放,如何拉拢摇摆州选民和制定相应的宣传策略、奥巴马在竞选后期应当在什么地方展开活动等。

在区域规划及城市发展方面,大数据在我国正在大力建设的“智慧城市”中将扮演不可或缺的角色。智慧城市的本质是将各行各业的数据关联打通,从中分析挖掘出模式和智能,从而形成城市的智慧联动。而其中从数据的采集到数据的分析挖掘,以及形成智能决策的每个过程,都离不开大数据的支撑。智慧城市的建设,将有力地促进政务及社会化管理,改进民生,发展生产,形成一系列有地方特色的、有清晰运营模式的新一代智能行业应用。

在企业发展方面,大数据将助力企业深度挖掘和利用数据中的价值,完成智能决策,在企业运营中提高效率,节省成本;在市场竞争中制定正确的市场战略,把握市场先机,规避市场风险;在市场营销中全面掌握用户需求,进行精准营销和个性化服务。企业的决策正在从“应用驱动”转向“数据驱动”,能够有效利用大数据并将其转化为生产力的企业,将具备核心竞争力,成为行业领导者。

在个人生活方面,大数据已经深入与我们生活息息相关的各个领域,如休闲娱乐、教育、健康等领域,都能见到大数据的应用。智能终端的普及更是让我们和大数据的接触就在指掌之间。比如我们每天发布微博、更新动态,用微信和朋友进行语音、文字、图片的互动,参与线上课程,带上健康监控手环监控心跳及睡眠的状况等,这些都离不开大数据平台对数据存储、交互和分析的支撑。

3.大数据将成为科技创新的新动力

各行业对大数据的实际需求能够孵化和衍生出一大批新技术和新产品,来解决面临的大数据问题,促进科技创新。同时,对数据的深度利用,将帮助各行业从数据中挖掘出潜在的应用需求、商业模式、管理模式和服务模式,这些模式的应用将成为开发新产品和新服务的驱动力。云计算及大数据平台的建设和发展,也为科技创新提供了极大的便利条件。比如新型大数据应用的开发,由于大数据的存储、分析都有相应的提供商和接口,开发者只需将精力集中在应用模式和界面上,这将大大降低开发难度,节省开发成本,缩短开发周期。各国政府及行业也在积极推动开放数据。比如美国启动开放政府计划,建立了“www.data.gov”网站,将政府运营的相关数据全部发布在网站上,人们能够方便地查找、下载和使用这些数据。实践证明,开放数据能够使公共数据更加有效地得到利用,能够促进数据交叉融合,也将催生新的创新点。

(四)大数据变革及趋势

1.基于内存处理的架构

大数据技术的核心是采用分布式技术、并行技术,将数据化整为零,分散处理,而不是依赖单一强大的硬件设备来集中处理。维克托·迈尔—舍恩伯格.大数据时代.杭州:浙江人民出版社,2013.例如,Hadoop平台就是基于廉价个人计算机(Personal Computer, PC)构建的支持大数据的分布式并行存储和计算集群。而目前,以Berkeley大学为首的学院派却提出了更为先进的大数据技术解决方案。Berkeley大学开发的Spark平台比Hadoop的处理性能高100倍,算法实现也要简单很多。同样都是基于MapReduce框架,Spark为何能够比Hadoop效率高近百倍?原因是Spark特有的内存使用策略,即所有的中间结果都尽量使用内存进行存储,避免了费时的中间结果写盘操作。Spark已经成为Apache孵化项目,并得到了包括IBM、Yahoo在内的互联网大公司的支持,这说明该策略正逐渐被业界人士所认同。而Berkeley提出的Tachyon项目则更是将内存至上理论发挥到了极致。Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享。Tachyon工作集文件缓存在内存中,并且让不同的Jobs/Queries以及框架都能以内存的速度来访问缓存文件。因此,Tachyon可以减少需要通过访问磁盘来获得数据集的次数。

通过最大化地利用内存,将传统系统中磁盘I/O导致的性能损耗全部屏蔽,因此,系统的性能提升上百倍是完全可能的。但人们在将内存作为主数据存储时,总会面临以下两个问题。

(1)如何满足存储量的需求?

目前,随着硬件技术的发展,高容量内存的制造成本大大降低,即使在家庭电脑上也可以轻易读取到8GB乃至16GB内存。可以预言,不出10年,TB级的内存将被普及,那时数据内存存储量也许将不再是问题。

(2)内存是易失性存储,数据如何持久化?

在断电或突发状况下,内存数据将会丢失,这是人们不愿意使用内存作为主数据存储的主要原因之一。从单机角度来看,内存存储数据确实存在极大的风险,解决该问题可以从两个角度考虑。

首先,要明确数据持久化的含义到底是什么。传统的思路认为,数据持久化就是将数据放置到硬盘等介质中。但就持久化的本意而言,数据如果能够随时被读出,保证不丢失,我们就可以称之为数据持久化。因此,当系统从单机架构转为分布式架构时,可以认为只要保证在任何时间集群中至少有一份正确数据可以被读取,则系统就是持久化的。例如Hadoop的多数据备份,就是大数据技术下持久化概念的体现。所以在大数据时代,可以通过分布式多份存储的方式保证数据的完整性和可靠性。

其次,随着固态硬盘(Solid State Drives, SSD)的全面普及,内存加SSD的硬件架构体系将应用得越来越多。充分利用内存进行快速读写,同时使用顺序写的方式在SSD中进行操作记录,保证机器恢复时能够通过日志实现数据重现,也是实现内存数据持久化的一种有效方案。

综上所述,随着硬件的发展以及分布式系统架构的普及,如何更好地利用内存,提高计算效率,将是大数据技术发展中的重要问题。

2.实时计算将蓬勃发展

大数据问题的爆发催生了像Hadoop这样的大规模存储和处理系统,以及其在世界范围内的普及与应用,然而这类平台只是解决了基本的大数据存储和海量数据离线处理的问题。随着数据的不断增多,以及各行业对数据所隐藏的巨大价值潜力的不断认知和发掘,人们对大数据处理的时效性需求将不断增加。在当今快速发展的信息世界里,企业的生死存亡取决于其分析数据并据此做出清晰而明智决策的能力。随着决策周期的持续缩短,许多企业无法等待缓慢的分析结果。比如,在线社交网站需要实时统计用户的连接、发帖等信息;零售企业需要在几秒钟而不是几个小时之内根据客户数据制定促销计划;金融服务企业需要在几分钟而不是几天内完成在线交易的风险分析。未来的大数据技术必须为实时应用和服务提供高速和连续的数据分析和处理。

3.大数据交互方式移动化、泛在化

随着大数据后台处理能力和时效性的不断提高,以及各行业数据的全面采集和深度融合,数据的多维度、全方位的分析和展示将形成。而飞速发展的移动互联网,尤其是普及的移动终端和4G技术,能够在功能上将数据的展示交互与后台处理有效地分离,但同时又能将它们通过移动网络高效地联结起来。当今正在崛起的可穿戴设备和技术能够随时随地感知或采集我们周围的环境信息及我们自身的数据,并将它们与云端的存储和处理相结合,以提供实时的工作、生活、休闲、娱乐、医疗健康等各方面的数据交互服务。可以预见,未来大数据的采集、展现和交互必将朝着移动化的、即时的、泛在的方向发展。