码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop--MapReduce 基本原理

时间:2015-03-30 20:52:21      阅读:127      评论:0      收藏:0      [点我收藏+]

标签:

MapReduce是Hadoop中的完成数据计算任务的核心框架

1. MapReduce 组成实体

     (1)Client节点:此节点上运行MapReduce程序和JobClient实例对象,负责提交MapReduce作业。

     (2)JobTracker:协调调度,主控节点,一个Hadoop集群仅有一个JobTracker节点

     (3)Map TaskTracker:执行 Map任务,一个Hadoop集群有多个TaskTracker节点

     (4)Reduce TaskTracker:执行Reduce任务,一个Hadoop集群有多个TaskTracker节点

     (5)HDFS,存储数据文件,配置文件

 

2. MapReduce 作业流程

    (1)作业启动

    (2)作业初始化

    (3)作业/任务调度

    (4)Map执行

    (5)shuffle

    (6)Reduce执行

    (7)作业完成

3. 作业流程分布讲解

   (1)作业启动:            由Client节点运行MapReduce程序,创建JobClient实例

                                                                    ↓

                                     JobClient向JobTracker发出请求,获得一个JobID,用于标识本次MapReduce作业

                                                                    ↓                

                                     JobClient将运行作业需要的相关资源(配置文件、输入数据分片数量、包含Mapper类和Reducer类的JAR文件)
                                     放入作业对应的HDFS目录, 计算分片数量和map任务数量
                                                                    ↓
                                     向JobTracker提交作业,并获得作业的状态对象句柄 
 


 

Hadoop--MapReduce 基本原理

标签:

原文地址:http://www.cnblogs.com/ivywenyuan/p/4378982.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!