MapReduce运行原理详解

时间：2016-06-05 01:08:38 阅读：221 评论：0 收藏：0 [点我收藏+]

标签：

　　我们通过提交jar包，进行MapReduce处理，那么整个运行过程分为五个环节：

　　1、向client端提交MapReduce job.

　　2、随后yarn的ResourceManager进行资源的分配.

　　3、由NodeManager进行加载与监控containers.

　　4、通过applicationMaster与ResourceManager进行资源的申请及状态的交互，由NodeManagers进行MapReduce运行时job的管理.

　　5、通过hdfs进行job配置文件、jar包的各节点分发。

技术分享

Job 提交过程

　　job的提交通过调用submit()方法创建一个JobSubmitter实例，并调用submitJobInternal()方法。整个job的运行过程如下：

　　1、向ResourceManager申请application ID，此ID为该MapReduce的jobId。

　　2、检查output的路径是否正确，是否已经被创建。

　　3、计算input的splits。

　　4、拷贝运行job 需要的jar包、配置文件以及计算input的split 到各个节点。

　　5、在ResourceManager中调用submitAppliction()方法,执行job

Job 初始化过程

　　1、当resourceManager收到了submitApplication()方法的调用通知后，scheduler开始分配container,随之ResouceManager发送applicationMaster进程，告知每个nodeManager管理器。

　　2、由applicationMaster决定如何运行tasks,如果job数据量比较小，applicationMaster便选择将tasks运行在一个JVM中。那么如何判别这个job是大是小呢？当一个job的mappers数量小于10个，只有一个reducer或者读取的文件大小要小于一个HDFS block时，（可通过修改配置项mapreduce.job.ubertask.maxmaps,mapreduce.job.ubertask.maxreduces以及mapreduce.job.ubertask.maxbytes 进行调整)

　　3、在运行tasks之前，applicationMaster将会调用setupJob()方法，随之创建output的输出路径(这就能够解释，不管你的mapreduce一开始是否报错，输出路径都会创建)

Task 任务分配

　　1、接下来application向ResourceManager请求containers用于执行map与reduce的tasks（step 8),这里map task的优先级要高于reduce task，当所有的map tasks结束后，随之进行sort(这里是shuffle过程后面再说）,最后进行reduce task的开始。(这里有一点，当map tasks执行了百分之5%的时候，将会请求reduce，具体下面再总结)

　　2、运行tasks的是需要消耗内存与CPU资源的，默认情况下，map和reduce的task资源分配为1024MB与一个核，（可修改运行的最小与最大参数配置,mapreduce.map.memory.mb,mapreduce.reduce.memory.mb,mapreduce.map.cpu.vcores,mapreduce.reduce.reduce.cpu.vcores.)

Task 任务执行

　　1、这时一个task已经被ResourceManager分配到一个container中，由applicationMaster告知nodemanager启动container，在运行task之前，首先定位task需要的jar包、配置文件以及加载在缓存中的文件。

　　2、

MapReduce运行原理详解

标签：

原文地址：http://www.cnblogs.com/yangsy0915/p/5559969.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行