Hadoop+Spark大数据技术(微课版)
上QQ阅读APP看书,第一时间看更新

1.1.1 Hadoop简介

Hadoop是基于Java语言开发的,可以部署在计算机集群上的开源的、可靠的、可扩展的分布式并行计算框架,具有很好的跨平台特性。Hadoop的核心是HDFS(Hadoop distributed file system,Hadoop分布式文件系统)和MapReduce(分布式并行计算编程模型)。HDFS能可靠地在集群的大量机器中以数据块序列的形式存储大量的文件,文件中除了最后一个数据块,其他数据块都有相同的大小。使用数据块存储数据文件的优势是:文件的大小可以大于网络中任意一个磁盘的容量,文件的所有数据块不需要存储在同一个磁盘上,可以利用计算机集群中的任意一个磁盘进行存储;数据块更适用于数据备份,进而提高数据容错能力和可用性。MapReduce的主要思想是“Map”(映射)和“Reduce”(规约)。