016_笼统概述MapReduce执行流程结合wordcount程序

时间：2016-03-15 09:41:35 阅读：266 评论：0 收藏：0 [点我收藏+]

标签：

一、map任务处理

1 、读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。

2 、写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。
3、对输出的key、value进行分区。
4 、对不同分区的数据，按照key进行排序、分组。相同key的value放到
一个集合中。
5 、(可选)分组后的数据进行归约。

二、reduce任务处理

1、对多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点。
2、对多个map任务的输出进行合并、排序。写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。
3、把reduce的输出保存到文件中。

技术分享

三、JobTracker和TaskTracke及相关的任务分工

JobTracker 负责接收用户提交的作业，负责启动、跟踪任务执行。
TaskTracke 负责执行由JobTracker分配的任务，管理各个任务
在每个节点上的执行情况。
Job ，用户的每一个计算请求，称为一个作业。
Task ，每一个作业，都需要拆分开了，交由多个服务器来完成，拆分出来的执行单位，就称为任务。
Task分为MapTask和ReduceTask两种，分别进行Map操作和Reduce操作，依据Job设置的Map类和Reduce类

技术分享

四、WordCount 处理过程

1、将文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成<key,value>对，下图所示。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车和换行所占的字符数2个（Windows/Linux环境不同）。

技术分享

2、将分割好的<key,value>对交给用户定义的map方法进行处理，生成新的<key,value>对，下图所示。

技术分享

3、得到map方法输出的<key,value>对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果。下图所示：

技术分享

4、Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的<key,value>对，并作为WordCount的输出结果，下图所示。

技术分享

五、MR 作业运行流程分析

1、在客户端启动一个作业；
2、向JobTracker请求一个Job ID；
3、将运行作业所需要的资源文件复制到HDFS上，包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息。这些文件都存放在JobTracker专门为该作业创建的文件夹中。文件夹名为该作业的Job ID。JAR文件默认会有10个副本（mapred.submit.replication属性控制）；输入划分信息告诉了JobTracker应该为这个作业启动多少个map任务等信息；

4、JobTracker接收到作业后，将其放在一个作业队列里，等待作业调度器对其进行调度（这里是不是很像微机中的进程调度呢，呵呵），当作业调度器根据自己的调度算法调度到该作业时，会根据输入划分信息为每个划分创建一个map任务，并将map任务分配给TaskTracker执行。对于map和reduce任务，TaskTracker根据主机核的数量和内存的大小有固定数量的map槽和reduce槽。这里需要强调的是：map任务不是随随便便地分配给某个TaskTracker的，

这里有个概念叫：数据本地化（Data-Local）。意思是：将map任务分配给含有该map处理的数据块的TaskTracker上，同时将程序JAR包复制到该TaskTracker上来运行，这叫“运算移动，数据不移动”。而分配reduce任务时并不考虑数据本地化。

5、TaskTracker每隔一段时间会给JobTracker发送一个心跳，告诉JobTracker它依然在运行，同时心跳中还携带着很多的信息，比如当前map任务完成的进度等信息。当JobTracker收到作业的最后一个任务完成信息时，便把该作业设置成“成功”。当JobClient查询状态时，它将得知任务已完成，便显示一条消息给用户。

016_笼统概述MapReduce执行流程结合wordcount程序

标签：

原文地址：http://www.cnblogs.com/xiangyangzhu/p/5278095.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行