大数据基础与应用
上QQ阅读APP看书,第一时间看更新

1.1 大数据产生的背景

1.信息基础设施与大数据

信息基础设施持续完善,包括网络带宽的持续增加、存储设备性价比的不断提升,犹如高速公路之于物流,为大数据的存储和传播准备了物质基础。

如果把信息技术的不断进步看成世界万物持续数字化的过程,则会理出一条清晰的主线。信息科技具有三个最核心和基础的能力:信息处理、信息存储和信息传递。几十年来,这三个能力的飞速进步是人类科技史上最为激动人心的事件之一。存储的价格从20世纪60年代的1万美元1MB,降到现在的1美分1GB的水平,其价差高达亿倍;在线实时观看高清电影,在几年前还是难以想象的,现在却变得习以为常了;网络的接入方式也从有线连接向高速无线连接转变。毫无疑问,网络带宽和大规模存储技术的高速持续发展,为大数据时代提供了廉价的存储和传输服务。因而本书假定存储和带宽不再是制约数据应用的因素。

2.互联网与大数据

互联网领域的公司最早开始重视数据资产的价值,从大数据中淘金,并且引领大数据的发展趋势。互联网的出现,在科技史上可以比肩“火”与“电”的发明。这个伟大的发明同样是因为军事目的驱动的。计算机在军方应用得越广泛,计算机上存储的军事机密就越多。人们担心如果存储重要军事机密数据的主要计算机被摧毁,很可能就会输掉整个战争,于是,推动计算机之间互相传递数据并互为备份的通信机制被提上日程。1969年11月某天的中午,6名科学家聚在加利福尼亚大学洛杉矶分校的实验室里,把分属于不同地区的4台计算机互相连接起来,这就是最早的互联网雏形。

互联网把每个人桌面上的计算机连接起来,改变了人们的生活,成为大家获取各类数据的首要渠道。通过互联网获取数据的模式可以被简单地抽象为“请求”+“响应”的模式。用收音机听广播,或者用电视机看电视节目,都是“广播”+“接收”的模式。不管有没有电视机在接收信号,广播塔总是在发送电视节目信号。随时打开电视机,随时就能收看电视节目。在“广播”+“接收”模式中,广播塔不知道有谁在接收节目。“请求”+“响应”模式则不同,如果客户端(所有接入互联网的设备、软件等)不主动要求,服务器端就不会发送任何数据。互联网应用协议基本上是这种模式,当然也有“广播”+“接收”模式的协议,但是不常用。每一次访问请求其实就是一次鼠标单击操作,服务器的日志忠实地记录下了每个人访问的时间、请求的命令、访问的网址等数据。这些访问记录,就像人们在雪地上行走留下的脚印一样,脚印连成一串,构成了人们在互联网上的“行为轨迹”。想一想猎人是怎样通过追踪脚印捕获猎物的,就会明白这些“轨迹”中蕴含着的巨大价值。所以各类服务器上的日志就是一种非常重要的大数据类型。

3.云计算与大数据

云计算为大数据的集中管理和分布式访问提供了必要的场所和分享的渠道。大数据是云计算的灵魂和必然的升级方向。

“没有大数据的云计算,就是房地产的代名词”,这是在某份大数据报告中曾经提到的一个观点,该观点引起了广泛的关注和争议。云计算确实可以称为一场信息技术领域内的革命,甚至对社会也将产生革命性的影响,但是它却不是一场技术革命,云计算在本质上是一场IT产品/服务消费方式的变革,云计算中的一个广为宣传的核心技术——虚拟化软件,早在20世纪60年代就已经被应用在IBM的大型主机中了。这几年国内各地兴起了建设云计算基地的风潮,客观上为“大数据”的发展准备了必备的存储空间和访问渠道。各大银行、电信运营商、大型互联网公司、政府各个部委都拥有了各自的“数据中心”。银行、电信、互联网公司绝大部分已经实现了全国级的数据集中工作。

云计算是大数据发展的前提和必要条件。没有云计算,就缺少了集中采集数据和存储数据的商业基础。云计算为大数据提供了存储空间和访问渠道;大数据则是云计算的灵魂和必然的升级方向。

4.物联网与大数据

物联网与移动终端持续不断地产生大量数据,并且数据类型丰富、内容鲜活,是大数据重要的来源。物联网是另一个信息技术领域的热词,究其本质是传感器技术进步的产物。遍布大街小巷的摄像头,是大家可以直观感受到的一种物联网形态。事实上,传感器几乎无处不在,使用它可以监测大气的温度、压强、风力,监测桥梁、矿井的安全,监测飞机、汽车的行驶状态等。现在大家常用的智能手机中,就包括重力感应器、加速度感应器、距离感应器、光线感应器、陀螺仪、电子罗盘、摄像头等各类传感器。这些不同类型的传感器,无时无刻不在产生大量的数据。其中的某些数据被持续地收集起来,成为大数据的重要来源之一。

移动智能终端的普及给大数据带来了丰富、鲜活的数据。苹果公司2012年公布的一组运营数据,可以反映智能终端上人们的活跃程度。其中,iMessage功能目前每秒为用户传递28000条信息;iCloud已经为用户提供了总计1亿多份的文档;GameCenter的账号创建数达到了1.6亿;iOS应用总数突破了70万,支持iPad的应用则达到了27.5万;苹果App Store的应用下载量突破350亿次大关,通过分成付给应用开发商的分成总额已达65亿美元;iBooks中的图书总数已达150万册,下载量也超过了4亿。