码迷,mamicode.com
首页 > 其他好文 > 详细

hadoop介绍-架构

时间:2020-12-28 11:29:22      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:resource   大小   集群   阿里   高可用   tab   ppm   jar   默认端口   

hadoop1.X架构

架构模型

技术图片

 分布式文件系统核心模块:

namenode:集群中的主节点,管理元数据(文件的大小,文件的位置,文件的权限)。

secondaryNameNode:辅助namenode管理元数据信息。

dadanode:集群当中的从节点,主要存储集群中的各种数据。

 分布式数据计算核心模块:

jobtracker:接收用户的计算请求,并分配任务给从节点。

tasktracker:负责执行主节点jobtracker分配的任务。

hadoop2.X架构

第一种:NameNode与ResourceManager单节点架构

技术图片

 分布式文件系统核心模块:

namenode:集群中的主节点,管理元数据(文件的大小,文件的位置,文件的权限)。

secondaryNameNode:辅助namenode管理元数据信息。

dadanode:集群当中的从节点,主要存储集群中的各种数据。

 分布式数据计算核心模块:

resourcemanager:接收用户的计算请求,并负责集群的资源分配。

nodemanager:负责执行主节点appmaster分配的任务。

第二种:NameNode单节点与ResourceManager高可用架构

技术图片

 分布式文件系统核心模块:

namenode:集群中的主节点,管理元数据(文件的大小,文件的位置,文件的权限)。

secondaryNameNode:辅助namenode管理元数据信息。

dadanode:集群当中的从节点,主要存储集群中的各种数据。

 分布式数据计算核心模块:

resourcemanager:接收用户的计算请求,并负责集群的资源分配,通过zookeeper实现resourcemanager高可用。

nodemanager:负责执行主节点appmaster分配的任务。

第三种:NameNode高可用与ResourceManager单节点架构

技术图片

 分布式文件系统核心模块:

namenode:集群中的主节点,管理元数据(文件的大小,文件的位置,文件的权限),namenode有两个形成高可用。

secondaryNameNode:辅助namenode管理元数据信息。

dadanode:集群当中的从节点,主要存储集群中的各种数据。

 分布式数据计算核心模块:

resourcemanager:接收用户的计算请求,并负责集群的资源分配。

nodemanager:负责执行主节点appmaster分配的任务。

第四种:NameNode高可用与ResourceManager高可用架构

技术图片

 分布式文件系统核心模块:

namenode:集群中的主节点,管理元数据(文件的大小,文件的位置,文件的权限),namenode有两个形成高可用。

secondaryNameNode:辅助namenode管理元数据信息。

dadanode:集群当中的从节点,主要存储集群中的各种数据。

 分布式数据计算核心模块:

resourcemanager:接收用户的计算请求,并负责集群的资源分配,通过zookeeper实现resourcemanager高可用。

nodemanager:负责执行主节点appmaster分配的任务。

hadoop3.X架构

hadoop3在架构,角色上和hadoop2没有区别, 主要的区别是功能和性能上的区别。

1.依赖

jdk: 最低版本1.8

2.hdfs

存储:新增纠删码存储技术Erasure Code(EC).

        在hadoop2中数据高可用主要是备份来进行的, 1G的数据3个副本需要3G的存储空间存储.

        在hadoop3中只需要1.5倍数据来保证数据高可用,通过计算的方式将丢失数据计算出来.

        优点:节省存储空间.

        缺点:计算开销需要一些时间.

        热数据通过备份机制存储, 冷数据(几年前不怎么查询的数据)通过纠删码机制.

HA:支持两个以上的namenode.

文件系统:增加对微软Azure Data Lake和阿里云OSS文件系统的支持.

功能:新增datanode磁盘复制均衡.

3.yarn

YARN timeline service v.2: 提升扩展性和可靠性.

支持Opportunistic Containers和Distributed Scheduling.

容器资源类型: 支持对CPU和内存之外的资源的配置, 如GPU和本地存储资源.

新的图形化监控界面.

4.其他

客户端jar引用优化: 将hadoop client的第三方依赖以shading dependency的方式隔离在单一jar包中,避免hadoop渗透到应用程序的类路径中.

mapreduce任务级本地优化: shuffle密集型任务, 性能提升30%.

修改许多服务默认端口.

第三方依赖包升级: jersey, netty, cglib等.

优化对守护进程和mr程序的堆管理配置.

hadoop在大数据平台角色

技术图片

  hadoop主要职责:  存储, 计算, 资源调度

  hadoop1 hadoop2/hadoop3
数据处理 支持批处理 支持批, 流,交互式处理
架构 mapreduce,hdfs mapreduce, hdfs2, yarn
存储高可用 master没有高可用 master节点高可用
时间 版本
2007 0.14.1
2010 0.20
2012

1.X

2.X

2017 3.X

hadoop介绍-架构

标签:resource   大小   集群   阿里   高可用   tab   ppm   jar   默认端口   

原文地址:https://www.cnblogs.com/chong-zuo3322/p/14171604.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!