大数据架构商业之路:从业务需求到技术方案
上QQ阅读APP看书,第一时间看更新

icon1

第3章 数据存储

第2章描述了如何获取企业内外的数据。当时,大宝提出了一个很好的问题:如今的互联网和公司内部每时每刻都在产生大量的信息,面对与日俱增的海量数据,我们应该如何存放它们呢?本章将带领大家一探究竟。

在此之前,先要解释一下第2章中提到的“持久化”和“非持久化”存储的概念。大家平时可能都有过这样的经历:老板交代下班前一定要完成一个重要的文档。你欢快地写了半天,突然电脑死机了,电脑重启后,再次打开文档却发现最近半小时的内容竟然没来得及保存,顿时石化……在这个案例中,半小时前你点击了“保存”按钮,所有的修改内容都保存到了磁盘(或者叫硬盘)上,这个用计算机专业的术语来说就叫“持久化”。持久化之后,就表示这部分内容真真切切地写入磁盘了,哪怕系统死机或断电,都不会影响这部分的数据。只要磁盘硬件本身没有出现问题,就能读取。相对的,最后那半小时你所做的修改都放在内存中,系统重启或断电后,内存的数据是无法保留的,一定会被清除,这就是“非持久化”。非持久化虽然不能像持久化那样永久地存放数据,但它的一大优势在于读取和写入的速度非常惊人。很难想象,如果没有内存我们的计算机系统会慢到何种地步。所以,在日常应用中,如果需要存储大量的资料,必须选择容量大的硬盘。如果要提升计算机的运行速度,提升硬盘的容量并没有帮助,这时应该提升内存的容量。当然,如果经费允许,两者都大一些,也没什么不好。

大数据存储和个人计算机应用有着类似的道理。在本章余下的部分中,将会从持久化和非持久化两个大的方向,分别介绍一些时下主流的大数据存储系统和解决方案。