大数据导论
上QQ阅读APP看书,第一时间看更新

1.4.3 大数据处理工具与平台

关系数据库在很长的时间里成为数据管理的最佳选择,但是在大数据时代,数据管理、分析等的需求多样化使得关系数据库在很多场景不再适用。这里对现今主流的大数据处理工具进行一个简单的归纳和总结。 Hadoop是目前最为流行的大数据处理平台。Hadoop最先是Doug Cutting模仿GFS、MapReduce实现的一个云计算开源平台,后贡献给Apache。Hadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块在内的完整生态系统(Ecosystem)。某种程度上可以说Hadoop已经成为大数据处理工具事实上的标准。对Hadoop改进并将其应用于各种场景的大数据处理已经成为新的研究热点,主要的研究成果集中在对Hadoop平台性能的改进、高效的查询处理、索引构建和使用、在Hadoop之上构建数据仓库、Hadoop和数据库系统的连接、数据挖掘、推荐系统等。除了Hadoop,还有很多针对大数据的处理工具。这些工具有些是完整的处理平台,有些则是专门针对特定的大数据处理应用。表1-2归纳总结了现今一些主流的处理平台和工具,这些平台和工具或是已经投入商业使用,或是开源软件。在已经投入商业使用的产品中,绝大部分也是在Hadoop基础上进行功能扩展,或者提供与Hadoop的数据接口。

表1-2 目前主要大数据处理平台