Hadoop--MapReduce 基本原理

时间：2015-03-30 20:52:21 阅读：127 评论：0 收藏：0 [点我收藏+]

标签：

MapReduce是Hadoop中的完成数据计算任务的核心框架

1. MapReduce 组成实体

（1）Client节点：此节点上运行MapReduce程序和JobClient实例对象，负责提交MapReduce作业。

（2）JobTracker：协调调度，主控节点，一个Hadoop集群仅有一个JobTracker节点

（3）Map TaskTracker：执行 Map任务，一个Hadoop集群有多个TaskTracker节点

（4）Reduce TaskTracker：执行Reduce任务，一个Hadoop集群有多个TaskTracker节点

（5）HDFS，存储数据文件，配置文件

2. MapReduce 作业流程

（1）作业启动

（2）作业初始化

（3）作业/任务调度

（4）Map执行

（5）shuffle

（6）Reduce执行

（7）作业完成

3. 作业流程分布讲解

（1）作业启动：由Client节点运行MapReduce程序，创建JobClient实例

↓

JobClient向JobTracker发出请求，获得一个JobID，用于标识本次MapReduce作业

↓

JobClient将运行作业需要的相关资源（配置文件、输入数据分片数量、包含Mapper类和Reducer类的JAR文件）

放入作业对应的HDFS目录，计算分片数量和map任务数量

↓

向JobTracker提交作业，并获得作业的状态对象句柄

标签：

原文地址：http://www.cnblogs.com/ivywenyuan/p/4378982.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行