码迷,mamicode.com
首页 > 其他好文 > 详细

HDFS的工作原理

时间:2018-09-25 18:01:11      阅读:169      评论:0      收藏:0      [点我收藏+]

标签:ica   讲师   解惑   名词解释   信息   51cto   镜像   文件系统   保存   

元数据管理机制

技术分享图片

名词解释

1、NameNode

? hdfs-site.xml的dfs.name.dir属性

? 是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/(根)目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。

文件包括:

? fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息

? edits:操作日志文件

? fstime:保存最近一次checkpoint的时间

以上这些文件是保存在linux的文件系统中。

2、Bolck

? 文件块(block):最基本的存储单位。

对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。

? HDFS默认Block大小是128MB,以一个256MB文件为例,共有256/128=2个Block。

? dfs.block.size不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间Replication。

3、DataNode

? hdfs-site.xml的dfs.replication属性

? 提供真实文件数据的存储服务。

? 一个DataNode上有多个bolck——多复本。默认是三个。

4、客户端上传元数据

? 1、客户端发起写入请求

? 2、NN返回可用的DN

? 3、客户端把元数据拆分成多个块

? 4、上传第一个块到某个DN1

? 5、DN1向DN2发起复制请求,DN2向DN3发起复制请求,如果失败,则由NN重新指定一个block向新的DN4发起复制请求

5、上传元数据信息安全机制

? 1、客户端发起写入请求

? 2、把操作写入到edits logs

? 3、客户端上传文件文件,并把结果反馈给NN,NN在内存中写入本次上传信息

? 4、当edits logs写满,则同步(flush)到 fs image文件系统中

? 5、读取的时候日志以特殊的方式跟fs image合并(所以不能在NN做合并)

6、元数据存储与读取细节

技术分享图片

SN的checkpoint机制

技术分享图片

? fs.checkpoint.period 指定两次checkpoint的最大时间间隔, 默认3600秒。

? fs.checkpoint.size 规定edits文件的最大值,一旦超过这个值则强制checkpoint,不管是否到达最大时间间隔。默认大小是64M。


更多资深讲师相关课程资料、学习笔记请入群后向管理员免费获取,更有专业知识答疑解惑。入群即送价值499元在线课程一份。

QQ群号:560819979

敲门砖(验证信息):雨打蕉

HDFS的工作原理

标签:ica   讲师   解惑   名词解释   信息   51cto   镜像   文件系统   保存   

原文地址:http://blog.51cto.com/13477015/2285432

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!