码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop框架三大组件hdfs、mapreduce、yarn 内容

时间:2020-07-26 23:01:30      阅读:83      评论:0      收藏:0      [点我收藏+]

标签:word   数据   task   理解   source   ast   思想   容器   文件   

HDFS概述

 

HDFS产出背景定义

技术图片

 

 

 

HDFS优缺点

技术图片

 

 

 技术图片

 

 

 

HDFS组成架构

技术图片

 

 

 技术图片

 

 

 

HDFS文件块大小(面试重点

技术图片

 

 

 

技术图片

 

MapReduce概述

 MapReduce定义

技术图片

 

 

 

MapReduce优缺点

优点

技术图片

 

 

 

技术图片

技术图片

 

 

 

缺点

技术图片

 

 

MapReduce核心思想

技术图片

 

 

1)分布式的运算程序往往需要分成至少2个阶段。

2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。

3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。

4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。

总结分析WordCount数据流走向深入理解MapReduce核心思想。

 

MapReduce进程

技术图片

 

 

Yarn基本架构

 

ARN主要由ResourceManagerNodeManagerApplicationMasterContainer等组件构成。

技术图片

 

 

 

 

 

 

 Yarn工作机制

技术图片

 

 

 

技术图片

 

 

工作机制详解

1MR程序提交到客户端所在的节点。

2YarnRunnerResourceManager申请一个Application

3RM将该应用程序的资源路径返回给YarnRunner。

4)该程序将运行所需资源提交到HDFS

5)程序资源提交完毕后,申请运行mrAppMaster。

6RM将用户的请求初始化成一个Task。

7)其中一个NodeManager领取Task任务。

8)该NodeManager创建容器Container并产生MRAppmaster。

9ContainerHDFS上拷贝资源到本地

10MRAppmaster向RM 申请运行MapTask资源。

11RM运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务创建容器。

12MR向两个接收到任务的NodeManager发送程序启动脚本这两个NodeManager分别启动MapTask,MapTask对数据分区排序。

13MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask

14ReduceTaskMapTask获取相应分区的数据。

15)程序运行完毕后,MR会向RM申请注销自己。

 

 

 

 

hadoop框架三大组件hdfs、mapreduce、yarn 内容

标签:word   数据   task   理解   source   ast   思想   容器   文件   

原文地址:https://www.cnblogs.com/Qin125/p/13381875.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!