标签:补充 简单 学习 分布式 dea 硬件 节点 延迟 并且
学习博客:https://blog.csdn.net/kezhong_wxl/article/details/76573901
官方文档:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
一、介绍
DFS(Distributed File System)分布式文件系统:管理网络中跨多台计算机存储的文件系统。
Hadoop自带一个HDFS(Hadoop Distributed File System)分布式文件系统。HDFS是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.
二、假设与设计
补充:关于数据访问方式,可以参考下面这个博客:
https://blog.csdn.net/HeatDeath/article/details/78986025
三、主从架构
有几个概念需要明确:
Namenode
管理节点;管理文件系统的命名空间,维护文件系统树及整棵树内的所有文件和目录;记录每个文件中各个块所在的数据节点信息;
管理文件系统命名空间的主服务器和管理客户端对文件的访问组成;
NameNode执行文件系统命名空间操作,如打开,关闭和重命名文件和目录。它还确定了块到DataNode的映射.何对文件系统名字空间或属性的修改都将被Namenode记录下来
Datanode
工作节点;根据需要存储和检索数据块(受client或namenode的调度),并定期向namenode发送他们所存储的块的列表。
负责提供来自文件系统客户端的读写请求
block
数据库,默认128MB.HDFS上的文件被划分为块大小的多个分块(chunk),作为独立的存储单元。与面向单一磁盘的文件系统不同,HDFS中小于一个块大小的文件不会占据整个块的空间(如:一个1MB的文件存储在一个128MB的块中,文件只使用1MB的磁盘空间,而不是128MB.)
四、数据复制
在HDFS中,它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的,为了容错,文件的所有数据块都会有副本。
HDFS中的文件都是一次性写入的,并且严格要求在任何时候只能有一个写入者。
Namenode全权管理数据块的复制,它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。
标签:补充 简单 学习 分布式 dea 硬件 节点 延迟 并且
原文地址:https://www.cnblogs.com/taoHongFei/p/9346250.html