首页 > 操作系统 >

mapreduce和yarn_mapreduce的工作原理_hadoop是什么(2)

电脑杂谈　发布时间：2017-01-25 11:51:20　来源：网络整理

如果某个DataNode出现了故障，那么DataNode就会从当前的管线中删除，剩下的Block会继续在余下的DataNode中以管线的形式传播，同时NameNode会再分配一个新的DataNode，以保持replication设定的数量。Client写入数据完毕之后，关闭数据流。（6）

说明：HDFS默认Block的大小为64M，提供SequenceFile和MapFile二种类型的文件。

二. MapReduce框架组成

MapReduce框架的主要组成部分和它们之间的相关关系，如下所示：

上述过程包含4个实体，各实体的功能，如下所示：

Client：提交的MapReduce作业，比如，写的MR程序，或者CLI执行的命令等；

JobTracker：协调作业的运行，本质是一个管理者；

TaskTracker：运行作业划分后的任务，本质就是一个执行者；

HDFS：用来在集群间共享存储的一种抽象文件系统。

直观来说，NameNode就是一个元数据仓库，就像Windows中的注册表一样。SecondaryNameNode可以看成NameNode的备份。mapreduce的工作原理DataNode可以看成是用来存储作业划分后的任务。在通常搭建的3台Hadoop分布式集群中，Master是NameNode，SecondaryNameNode，JobTracker，其它2台Slaver都是TaskTracker，DataNode，并且TaskTracker都需要运行在HDFS的DataNode上面。

上述用到的类，或者进程的功能，如下所示：

Mapper和Reducer

基于Hadoop的MapReduce应用程序最今本的组成部分包括：一个Mapper抽象类，一个Reducer抽象类，一个创建JobConf的执行程序。

JobTracker

JobTracker属于master，一般情况应该部署在单独的机器上，它的功能就是接收Job，负责调度Job的每一个子任务Task运行在TaskTracker上，并且监控它们，如果发现有失败的Task就重启它即可。

TaskTracker

TaskTracker是运行于多节点的slaver服务，它的功能是主动通过心跳与JobTracker进行通信接收作业，并且负责执行每一个任务。

JobClient

JobClient的功能是在Client提交作业后，把一些文件上传到HDFS，比如作业的jar包（包括应用程序以及配置参数）等，并且把路径提交到JobTracker，然后由JobTracker创建每一个Task（即MapTask和ReduceTask）并将它们分别发送到各个TaskTracker上去执行。

JobInProgress

JobClient提交Job后，JobTracker会创建一个JobInProgress来跟踪和调度这个Job，并且把它添加到Job队列中。JobInProgress根据提交的Job Jar中定义的输入数据集（已分解成FileSplit）创建对应的一批TaskInProgress1用于监控和调度Task。

TaksInProgress2

JobTracker通过每一个TaskInProgress1来运行Task，这时会把Task对象（即MapTask和ReduceTask）序列化写入相应的TaskTracker中去，TaskTracker会创建对应的TaskInProgress2用于监控和调度该MapTask和ReduceTask。

MapTask和ReduceTask

Mapper根据Job Jar中定义的输入数据<key1, value1>读入，生成临时的<key2, value2>，如果定义了Combiner，MapTask会在Mapper完成后调用该Combiner将相同Key的值做合并处理，目的是为了减少输出结果。MapTask全部完成后交给ReduceTask进程调用Reducer处理，生成最终结果<key3, value3>。具体过程可以参见[4]。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-28656-2.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

刘豪华

2026年03月21日回复顶转发

每日福利

【Jujue的古诗是什么意思？】作文写作的答案

python获得win10系统声音

皮肤病血毒丸有什么作用？对湿疹有效吗？

完美：如何设置虚拟内存？在Win10中设置虚拟内存的最佳方法

热点图片

热点排行