HDFS写文件解析

时间：2015-06-03 10:00:38 阅读：98 评论：0 收藏：0 [点我收藏+]

client通过DistributedFileSystem对象调用create()方法创建文件，实际上通过RPC调用了NameNode的方法。
NameNode收到client的请求之后，执行各种检查（1.确认要传文件目前在HDFS上不存在，2.client具有写的权限）如果通过则会为新文件创建一条记录,并返回一个FSDataOutputStream对象，该对象负责DataNode和NameNode通讯。若检查未通过则抛出IOException。
客户端拿到流后，进行文件写入。stream会将数据分成一个个数据包（packet）并写入内部队列，称为数据队列（data queue）。DataStreamer处理数据队列，它的责任是根据DataNode列表来要求NameNode分配适合的新块来存储副本。这一组DataNode构成一个管道（Pipeline）--- 如果存在多个DataNode，那么包会在DataNode之间进行流式转发。一直到最后一个节点
DFSOutputStream也维护着一个确认队列（ack queue）。收到管道中所有DataNode确认信息后，该数据包才会从确认队列中删除。
所有的数据块都写完以后，close流。并且等待NameNode返回确认信息。

上述是在正常写文件，并且没有发生故障的理想情况下。

补充：

如果数据写入期间DataNode发生故障，则执行以下操作：

1.关闭管道（Pipeline）

2.将队列中的所有数据包都添加回数据队列的最前端，确保故障节点下游的DataNode不会漏掉任何一个数据库包

3.为存储在另一节点的当前数据块指定一个新的标识，并将标识发给NameNode. 便于故障节点恢复后可以删除其原来已经上传的部分数据。

4.从管道中删除故障节点，并把数据块继续传输到其他正常DataNode节点。NameNode发现副本数不足时，会在另一个节点上创建一个新的副本。

原文地址：http://blog.csdn.net/u010811257/article/details/46336589

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行