2.3 Hadoop体系结构
Hadoop体系结构包括许多内容,最底层的是HDFS,它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,由JobTrackers和TaskTrackers组成。除此之外,Hadoop体系结构还包括数据仓库Hive、数据流处理Pig、数据挖掘库Mahout和实时分布式数据库Hbase等,但最根本的、最重要的还是HDFS和MapReduce。Hadoop体系结构如图2-1所示。
图2-1 Hadoop体系结构
2.3.1 HDFS体系结构
HDFS对外部客户机而言,就像一个传统的分级文件系统,可以创建、删除、移动或重命名文件等。但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。HDFS是一个主/从(Mater/Slave)体系结构,其中有两类节点,一类是元数据节点NameNode,另一类是数据节点DataNode。两类节点分别承担Master和Worker具体任务的执行节点。体系中只有一个NameNode,它在HDFS内部提供元数据服务;体系中有多个DataNode,它为HDFS提供存储块。由于分布式存储的性质,客户端联系NameNode以获取文件的元数据,而真正的文件I/O操作是直接和DataNode进行交互的。但由于NameNode只有一个,如果NameNode出现问题,则Hadoop无法正常使用,这是HDFS的一个缺点。
(1)NameNode(名称节点)——管理文件系统的命名空间
NameNode是一个通常在HDFS实例中的单独机器上运行的软件,它负责管理文件系统名称空间和控制外部客户机的访问。NameNode决定是否将文件映射到DataNode的复制块上。有三个常见复制块,其中第一个和第二个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。
要注意经过NameNode的不是实际具体的I/O事务,而是表示DataNode和块的文件映射的元数据。当外部客户机发送请求要求创建文件时,NameNode会以块标识和该块的第一个副本的DataNode IP地址作为响应。此NameNode还会通知其他将要接收该块副本的DataNode。
(2)DataNode(数据节点)——文件系统中真正存储数据的地方
DataNode也是一个通常在HDFS实例中的单独机器上运行的软件。DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。
DataNode响应来自HDFS客户机的读写请求。它们还响应来自NameNode的创建、删除和复制块的命令。DataNode每3s向NameNode发送一个心跳(从节点的通信时间间隔)。每10次心跳后,向NameNode发送一条信息,每条消息都包含一个块报告,NameNode可以根据这个报告验证块映射和其他文件系统元数据,确保每个数据块有足够的副本。如果DataNode不能发送心跳消息,NameNode将采取修复措施,重新复制在该节点上丢失的块。过程如图2-2~图2-4所示。
图2-2 HDFS结构
图2-3 HDFS写入数据的流程
图2-4 HDFS读取数据的流程
存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP。
2.3.2 MapReduce体系结构
MapReduce主要包含4个组成部分,分别为Client、Job Tracker、Task Tracker和Task,下面详细介绍这4个组成部分。
(1)Client
每一个Job都会在用户端通过Client类将用户编写的MapReduce程序以及配置参数Configuration打包成JAR文件存储在HDFS,并把路径提交到Job Tracker的Master服务,然后由Master创建每一个Task(即MapTask和Reduce Task)将它们分发到各个Task Tracker服务中去执行。用户可通过Client提供一些接口查看作业的运行状态。
(2)Job Tracker
Job Tracke负责资源监控和作业调度。Job Tracker监控所有Task Tracker与Job的健康状况,一旦发现失败,就将相应的任务转移到其他节点;同时,Job Tracker会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务调度器(Task Scheduler),而调度器会在资源出现空闲时,选择合适的任务使用这些资源。在Hadoop中,任务调度器是一个可插拔的模块,用户可以根据自己的需要设计相应的调度器。
(3)Tas Tracker
Task Tracker会周期性地通过Heartbeat将本节点上资源的使用情况和任务的运行进度汇报给Job Tracker,同时接收Job Tracker发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)。Task Tracker使用“slot”等量划分本节点上的资源量。slot代表计算资源(CPU、内存等)。一个Task获取到一个slot后才有机会运行,而Hadoop调度器的作用就是将各个Task Tracker上的空闲slot分配给Task使用。slot分为Map slot和Reduce slot两种,分别供Map Task和Reduce Task使用。Task Tracker通过slot数目限定Task的并发度。
(4)Task
Task分为Map Task和Reduce Task两种,均由Task Tracker启动。HDFS以固定大小的block为基本单位存储数据,而对于MapReduce而言,其处理单位是split。split是一个逻辑概念,它只包含一些元数据信息,比如数据起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己决定。需要注意的是,split的多少决定了Map Task的数目,因为每个split只会交给一个Map Task处理。Map Task执行过程如图2-5所示。
图2-5 Map Task执行过程
由图2-5可知,Map Task先将对应的split迭代解析成一个个key/value对,依次调用用户自定义的map()函数进行处理,最终将临时结果存放到本地磁盘上,其中临时数据被分成若干个partition,每个partition被一个Reduce Task处理。Reduce Task执行过程如图2-6所示。
图2-6 Reduce Task执行过程
上述过程分为三个阶段。Shuffle阶段:从远程节点上读取Map Task中间结果。Sort阶段:按照key对key/value对进行排序。Reduce阶段:依次读取< key,value list>,调用用户自定义的reduce()函数处理,并将最终结果存到HDFS上。