首页 > 操作系统 >

mapreduce 函数原理_mongodb mapreduce 原理_mapreduce函数

电脑杂谈　发布时间：2019-09-09 19:05:53　来源：网络整理

快结课了，该写个小结了。

mapreduce是两个操作方法，即映射和规约也是这个分布式计算的思想

主要过程是这么的：

即实现一个指定的Map映射函数，用来把一组键值对映射成新的键值对，再把新的键值对发送个Reduce规约函数，用来确保所有映射的索引对中的每一个共享同样的键组

特点就是：

分不可靠 MP

通过把对数据的操作分发给通信网络上对每个节点，每个节点会周期性的返回它所完成的工作和最新状况，如果一个节点沉默时间达到预设的时间间隔，主节点会觉得这个节点挂掉了，并会把以前分配在这个节点上的数据，重新分发给新的节点，保证数据不丢失。

用途：

分不排序，web连接图翻转，web的访问日志分析，文档聚类，机器学习，统计预测等

MapReduce提供了下面的主要功能：

1）数据划分和计算任务调度：

系统手动将一个作业（Job）待处理的大数据划分为这些个数据块，每个数据块对应于一个计算任务（Task），并手动调度计算结点来处置相应的数据块。作业和任务调度功能主要负责分配和调度计算节点（Map节点或Reduce节点），同时负责监控那些节点的执行状况，并负责Map节点执行的同步控制。

2）数据/代码互定位：

mongodb mapreduce 原理_mapreduce 函数原理_mapreduce函数

为了避免数据通信，一个基本原则是本地化数据处理，即一个计算结点尽可能处理其本地磁盘上所分布存储的数据，这推动了代码向数据的迁移；当能够进行这样本地化数据处理时，再寻求其它可用节点并将数据从网络上传送给该节点（数据向代码迁移），但将尽可能从数据所在的本地机架上寻求可用节点以提高通信延迟。

3）系统优化：

为了避免数据通信开销mapreduce 函数原理，中间结果数据处于Reduce节点前会进行必定的合并处理；一个Reduce节点所处理的数据可能会来自多个Map节点，为了防止Reduce计算阶段出现数据相关性，Map节点输出的后面结果需使用必定的思路进行适度的界定处理，保证相关性数据发送到同一个Reduce节点；此外，系统还进行一些计算性能改进处理，如对最慢的计算任务采取多备份执行、选最快完成者作为结果。

4）出错检测和恢复：

以高端商用服务器构成的MapReduce计算集群中，节点软件（主机、磁盘、内存等）出错和工具错误是常态，因此MapReduce需要能检查并防护出错节点，并调度分配新的节点接管出错节点的计算任务。同时，系统还将维护数据传输的可靠性，用多备份冗余储存模式增加数据传输的可靠性，并能迅速评估和恢复错误的数据。

ps:以上的功能特点是百度的，我也不太懂总有每天会懂的。

工作原理：

1..MapReduce库先把用户的输入文件界定为M份（M为用户定义）现在大概默认为128Mb

假如将1G数据根据128mb的数据块来划分则可以划分为8块

2用户工程中的副本中有一个称为master，其余称为worker，master是负责调度的，为空闲worker分配作业（Map作业以及Reduce作业），worker的总量也是可以由用户指定的。、

3.被分配了Map作业的worker，开始加载对应分片的输入数据，Map作业总量是由M决定的，和split一一对应；Map作业从输入数据中抽取出字段对，每一个键值对都作为参数传递给map函数，map变量造成的后面键值对被缓存在硬盘中。

4..缓存的后面键值对会被定期写入本地磁盘，而且被分为R个区，R的大小是由用户定义的，将来每个区会对应一个Reduce作业；这些后面键值对的位置会被通报master，master负责将信息转发给Reduce worker。

5.master通知分配了Reduce作业的worker它负责的分区在哪个位置（肯定不止一个地方，每个Map作业造成的后面键值对都或许映射到所有R个不同分区），当Reduce

mongodb mapreduce 原理_mapreduce 函数原理_mapreduce函数