首页 > 操作系统 >

mapreduce和yarn_mapreduce的工作原理_hadoop是什么(3)

电脑杂谈　发布时间：2017-01-25 11:51:20　来源：网络整理

三. MapReduce工作原理

整个MapReduce作业的工作工程，如下所示：

1. 作业的提交

JobClient的submitJob()方法实现的作业提交过程，如下所示：

通过JobTracker的getNewJobId()请求一个新的作业ID；（2）

检查作业的输出说明（比如没有指定输出目录或输出目录已经存在，就抛出异常）；

计算作业的输入分片（当分片无法计算时，比如输入路径不存在等原因，就抛出异常）；

将运行作业所需的资源（比如作业Jar文件，配置文件，计算所得的输入分片等）复制到一个以作业ID命名的目录中。（集群中有多个副本可供TaskTracker访问）（3）

通过调用JobTracker的submitJob()方法告知作业准备执行。（4）

2. 作业的初始化

JobTracker接收到对其submitJob()方法的调用后，就会把这个调用放入一个内部队列中，交由作业调度器（比如先进先出调度器，容量调度器，公平调度器等）进行调度；（5）

初始化主要是创建一个表示正在运行作业的对象——封装任务和记录信息，以便跟踪任务的状态和进程；（5）

为了创建任务运行列表，作业调度器首先从HDFS中获取JobClient已计算好的输入分片信息（6）。mapreduce的工作原理然后为每个分片创建一个MapTask，并且创建ReduceTask。（Task在此时被指定ID，请区分清楚Job的ID和Task的ID）。

3. 任务的分配

TaskTracker定期通过“心跳”与JobTracker进行通信，主要是告知JobTracker自身是否还存活，以及是否已经准备好运行新的任务等；（7）

JobTracker在为TaskTracker选择任务之前，必须先通过作业调度器选定任务所在的作业；

对于MapTask和ReduceTask，TaskTracker有固定数量的任务槽（准确数量由TaskTracker核的数量和内存大小来决定）。JobTracker会先将TaskTracker的MapTask填满，然后分配ReduceTask到TaskTracker；

对于MapTrask，JobTracker通过会选取一个距离其输入分片文件最近的TaskTracker。对于ReduceTask，因为无法考虑数据的本地化，所以也没有什么标准来选择哪个TaskTracker。

4. 任务的执行

TaskTracker分配到一个任务后，通过从HDFS把作业的Jar文件复制到TaskTracker所在的文件系统（Jar本地化用来启动JVM），同时TaskTracker将应用程序所需要的全部文件从分布式缓存复制到本地磁盘；（8）

TaskTracker为任务新建一个本地工作目录，并把Jar文件中的内容解压到这个文件夹中；

TaskTracker启动一个新的JVM（9）来运行每个Task（包括MapTask和ReduceTask），这样Client的MapReduce就不会影响TaskTracker守护进程（比如，导致崩溃或挂起等）；

子进程通过umbilical接口与父进程进行通信，Task的子进程每隔几秒便告知父进程它的进度，直到任务完成。

5. 进程和状态的更新

一个作业和它的每个任务都有一个状态信息，包括作业或任务的运行状态，Map和Reduce的进度，计数器值，状态消息或描述（可以由用户代码来设置）。这些状态信息在作业期间不断改变，它们是如何与Client通信的呢？

任务在运行时，对其进度（即任务完成的百分比）保持追踪。对于MapTask，任务进度是已处理输入所占的比例。对于ReduceTask，情况稍微有点复杂，但系统仍然会估计已处理Reduce输入的比例；

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-28656-3.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

每日福利

【Jujue的古诗是什么意思？】作文写作的答案

热点图片

热点排行