首页
Web开发
Windows程序
编程语言
数据库
移动开发
系统相关
微信
其他好文
会员
首页
>
其他好文
> 详细
HDFS写文件解析
时间:
2015-06-03 10:00:38
阅读:
98
评论:
0
收藏:
0
[点我收藏+]
标签:
hadoop
hdfs
namenode
client通过DistributedFileSystem对象
调用create
()方法创建文件,实际上通过
RPC调用
了NameNode的方法。
NameNode收到client的请求之后,
执行各种检查
(1.确认要传文件目前在HDFS上不存在,2.client具有写的权限)如果通过则会为新文件创建一条记录,并返回一个FSDataOutputStream对象,该对象负责DataNode和NameNode通讯。若检查未通过则抛出IOException。
客户端拿到流后,进行文件写入。stream会将数据分成一个个数据包(packet
)并写入内部队列,称为
数据队列(data queue)
。
DataStreamer
处理数据队列,它的责任是
根据DataNode列表来要求NameNode分配适合的新块来存储副本
。这一组DataNode构成一个
管道(Pipeline)
--- 如果存在多个DataNode,那么包会在DataNode之间进行
流式转发
。 一直到最后一个节点
DFSOutputStream也维护着一个确认队列(ack queue)。收到管道中所有DataNode确认信息后,该数据包才会从确认队列中删除。
所有的数据块都写完以后,close流。并且等待NameNode返回确认信息。
上述是在正常写文件
,并且没有发生故障的理想情况下。
补充:
如果数据写入期间DataNode发生故障,则执行以下操作:
1.关闭管道(Pipeline)
2.将队列中的所有数据包都添加回数据队列的最前端,确保故障节点下游的DataNode不会漏掉任何一个数据库包
3.为存储在另一节点的当前数据块指定一个新的标识,并将标识发给NameNode. 便于故障节点恢复后可以删除其原来已经上传的部分数据。
4.从管道中删除故障节点,并把数据块继续传输到其他正常DataNode节点。NameNode发现副本数不足时,会在另一个节点上创建一个新的副本。
HDFS写文件解析
标签:
hadoop
hdfs
namenode
原文地址:http://blog.csdn.net/u010811257/article/details/46336589
踩
(
0
)
赞
(
0
)
举报
评论
一句话评论(
0
)
登录后才能评论!
分享档案
更多>
2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)
周排行
更多
分布式事务
2021-07-29
OpenStack云平台命令行登录账户
2021-07-29
getLastRowNum()与getLastCellNum()/getPhysicalNumberOfRows()与getPhysicalNumberOfCells()
2021-07-29
【K8s概念】CSI 卷克隆
2021-07-29
vue3.0使用ant-design-vue进行按需加载原来这么简单
2021-07-29
stack栈
2021-07-29
抽奖动画 - 大转盘抽奖
2021-07-29
PPT写作技巧
2021-07-29
003-核心技术-IO模型-NIO-基于NIO群聊示例
2021-07-29
Bootstrap组件2
2021-07-29
友情链接
兰亭集智
国之画
百度统计
站长统计
阿里云
chrome插件
新版天听网
关于我们
-
联系我们
-
留言反馈
© 2014
mamicode.com
版权所有 联系我们:gaon5@hotmail.com
迷上了代码!