大数据处理的特征
随着数据日积月累,需求的应用场景也会越来越丰富。那么,大数据到底是如何被处理的呢?对很多人来说,大数据只是一个概念,而工程师面对的却是待解决的实际问题。他们需要解决这些问题,至于是不是用大数据的方式,一开始未必就能确定。也许他们一开始并没有意识到需要用大数据。当他们发现:我的天啊!数据怎么这么多!我的程序跑个基本处理竟然要五个小时!这时,就该大数据出马了。
当你发现,需要解决的问题具备几个共同特征,那么这个问题就可以运用大数据手段去解决。也就是说,这个问题基本上就可以算是大数据问题了。
我们总结了需要利用大数据技术手段处理的数据的三大特征。
第一,数据量大。至于数据量大到什么程度才算大数据,并不存在统一的硬性标准。在不同的历史时期和软硬件条件下,数据量标准也是不同的。但不管怎么说,当数据量大到用一台处理器处理不过来、多到用单一存储设备难以存下时,就需要采用大数据手段了。
第二,数据一般带有时间属性。对有些数据来说,时间是主要属性,例如,在某个时刻的设备状态监控信息。而对另外一些数据来说,虽然时间不是最重要的属性,但也是属性之一,例如,某首歌曲或者某部电影,虽然大家关注的是其内容,但是它们同时也具有产生和被使用的时间属性。
第三,数据一般具有多个属性维度。单一属性的数据虽然可能量也很大,但是从处理和分析的角度来看,数据往往可以被分为很多详细的属性,而这些属性之间的关联和关系才是最有价值的。例如,监控视频包含的也许都是单一的图像数据,而需要被处理的常常是这些图像被分析之前的元数据以及被分析之后的详细数据。例如,采集视频的时间和采集时的地理位置、图像的分辨率是元数据,而图像分析之后得到的人数、天气情况、是否存在需要关注的异常事件等,就属于含有更详细的维度的信息。
IBM公司提出大数据有5V特征,分别是大量(Volume)、高速(Velocity)、真实(Veracity)、多样(Variety)和低价值密度(Value),它们可以用来说明大数据的数据量大、需要的处理速度快、对数据质量的追求高,同时数据的来源往往很不同,以及价值密度的高低与数据总量的大小成反比等特性。此外,还有人认为大数据的特征是体量大、可分析的维度多、数据完备性重要,以及数据不能够用传统方式处理。这些特性分析和理解当然是没错的,但从事物的不同角度看,关注的重点、可以进行的分类和得到的结论会不同,因此本书中提出的三项大数据特性更多关注的是大数据项目的实施属性,所以我们也称之为大数据处理的三大特征。