首页 > 操作系统 >

mapreduce和yarn_mapreduce的工作原理_hadoop是什么

电脑杂谈　发布时间：2017-01-25 11:51:20　来源：网络整理

还记得2.5年前就搭建好了Hadoop伪分布式集群，安装好Eclipse后运行成功了WordCount.java，然后学习Hadoop的步伐就变得很慢了，相信有很多小伙伴和我一样。自己对MR程序（特指Hadoop 1.x版本）的工作过程一直都不是很清楚，现在重点总结一下，为MR编程打好基础。由于MapReduce是基于HDFS的操作，因此要想深入理解MapReduce（解决的是分布式计算问题），首先得深入理解HDFS（解决的是分布式存储问题）。

一. HDFS框架组成

HDFS采用master/slaver的主从架构，一个HDFS集群包括一个NameNode节点（主节点）和多个DataNode节点（从节点），并提供应用程序的访问接口。NameNode，DataNode和Client的解释，如下所示：

NameNode负责文件系统名字空间的管理与维护，同时负责客户端文件操作（比如打开，关闭，重命名文件或目录等）的控制及具体存储任务的管理与分配（比如确定数据块到具体DataNode节点的映射等）；

DataNode负责处理文件系统客户端的读写请求，提供真实文件数据的存储服务；

Client是客户端，一般指的是访问HDFS接口的应用程序，或者HDFS的Web服务（就是让用户通过浏览器来查看HDFS的运行状况）等。

1. 文件的读取

Client与之交互的HDFS、NameNode、DataNode文件的读取流程，如下所示：

Client向远程的NameNode发起RPC请求；（1）

NameNode会返回文件的部分或者全部Block列表，对于每个Block，NameNode都会返回该Block副本的DataNode地址；（2）

Client会选择与其最接近的DataNode来读取Block，如果Client本身就是DataNode，那么将从本地直接读取数据；（3）

读完当前Block后，关闭与当前的DataNode连接，并为读取下一个Block寻找最近的DataNode；（4）

读完Block列表后，并且文件读取还没有结束，Client会继续向NameNode获取下一批Block列表；（5）

读完一个Block都会进行Cheeksum验证，如果读取DataNode时出现错误，Client会通知NameNode，然后从该Block的另外一个最近邻DataNode继续读取数据。Client读取数据完毕之后，关闭数据流。（6）

2. 文件的写入

Client与之交互的HDFS、NameNode、DataNode文件的写入流程，如下所示：

Client向远程的NameNode发起RPC请求；（1）

NameNode便会检查要创建的文件是否已经存在，创建者是否有权限进行操作等，如果满足相关条件，就会创建文件，否则会让Client抛出异常；（2）

在Client开始写入文件的时候，开发库（即DFSOutputStream）会将文件切分成一个个的数据包，并写入”数据队列“，然后向NameNode申请新的Block，从而得到用来存储复本（默认为3）的合适的DataNode列表，每个列表的大小根据NameNode中对replication的设置而定；（3）

首先把一个数据包以流的方式写入第一个DataNode，其次将其传递给在此管线中的下一个DataNode，然后直到最后一个DataNode，这种写数据的方式呈流水线的形式；（假设复本为3，那么管线由3个DataNode节点构成，即Pipeline of datanodes）（4）

当最后一个DataNode完成之后，就会返回一个确认包，在管线里传递至Client，开发库（即DFSOutputStream）也维护着一个”确认队列”，当成功收到DataNode发回的确认包后便会从“确认队列”中删除相应的包；（5）

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-28656-1.html