标签:
MapReduce是Hadoop中的完成数据计算任务的核心框架
1. MapReduce 组成实体
(1)Client节点:此节点上运行MapReduce程序和JobClient实例对象,负责提交MapReduce作业。
(2)JobTracker:协调调度,主控节点,一个Hadoop集群仅有一个JobTracker节点
(3)Map TaskTracker:执行 Map任务,一个Hadoop集群有多个TaskTracker节点
(4)Reduce TaskTracker:执行Reduce任务,一个Hadoop集群有多个TaskTracker节点
(5)HDFS,存储数据文件,配置文件
2. MapReduce 作业流程
(1)作业启动
(2)作业初始化
(3)作业/任务调度
(4)Map执行
(5)shuffle
(6)Reduce执行
(7)作业完成
3. 作业流程分布讲解
(1)作业启动: 由Client节点运行MapReduce程序,创建JobClient实例
↓
JobClient向JobTracker发出请求,获得一个JobID,用于标识本次MapReduce作业
↓
标签:
原文地址:http://www.cnblogs.com/ivywenyuan/p/4378982.html