首页 > 其他好文 > 详细

HDFS的体系架构

时间：2017-05-21 16:01:36 阅读：134 评论：0 收藏：0 [点我收藏+]

标签：arc hive hbase dfs map 组成 logs hdfs 文件信息

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍。基本涵盖了Hadoop分布式平台的全部技术核心。

HDFS的体系架构

整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过MR来实现对分布式并行任务处理的程序支持。

HDFS採用主从（Master/Slave）结构模型。一个HDFS集群是由一个多个Namenode和多个DataNode组成的(hadoop2.2以后支持多个Namenode)

NameNode作为主server。管理文件系统命名空间和client对文件的訪问操作。

DataNode管理存储的数据。

HDFS支持文件形式的数据。

从内部来看。文件被分成若干个数据块，这若干个数据块存放在一组DataNode上。NameNode运行文件系统的命名空间，如打开、关闭、重命名文件或文件夹等，也负责数据块到详细DataNode的映射。DataNode负责处理文件系统client的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。

NameNode是全部HDFS元数据的管理者。用户数据永远不会经过NameNode。

文件写入：

1） Client向NameNode发起文件写入的请求。

2） NameNode依据文件大小和文件块配置情况，返回给Client它管理的DataNode的信息。

3） Client将文件划分为多个block，依据DataNode的地址，按顺序将block写入DataNode块中。

文件读取：

1） Client向NameNode发起读取文件的请求。

2） NameNode返回文件存储的DataNode信息。

3） Client读取文件信息。

HDFS作为分布式文件系统在数据管理方面可借鉴点：

文件块的放置：一个Block会有三份备份，一份在NameNode指定的DateNode上，一份放在与指定的DataNode不在同一台机器的DataNode上，一根在于指定的DataNode在同一Rack上的DataNode上。

备份的目的是为了数据安全。採用这样的方式是为了考虑到同一Rack失败的情况，以及不同数据拷贝带来的性能的问题。

关于Rack的介绍:
http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843015.html

HDFS的体系架构

标签：arc hive hbase dfs map 组成 logs hdfs 文件信息

原文地址：http://www.cnblogs.com/lytwajue/p/6884999.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！