大数据 week2 Hadoop and HDFS

时间：2020-06-15 18:02:14 阅读：50 评论：0 收藏：0 [点我收藏+]

第二节课花了40分钟讲，如果dataNode坏掉之后，block丢失的概率，以及每个Block的数量设置为3的科学之处；剩余10分钟讲了HDFS文件的create write read.

1. Block的存储

　　1）每个Block设置为3个，分别存放于不同的DataNode中，第一份存放于local DataNode，其他两份存放于不同于第一份的rack中的两个dataNode 这样防止出现电力事故造成的数据丢失。

技术图片

　　2）为什么每个block数量要设置为3

　　设有4000个nodes，三百万个blocks，每个Node便有750个blocks，每日丢失一个node

　　这些计算好无聊啊 - -

　　技术图片

HDFS独写：

1. write

　　1）先向分DFS申请空间，然后DFS向NameNode发出申请

　　2）Client经过FSDataOutputStream 开始在Pipeline of datanodes里面写三份

　　3) 写完之后经过FSDataOutputStream关闭，并告诉NameNode 结束

　　1）对于一份文件同时只能一个人写

　　2）blocks可以同时进行写

技术图片

read:

技术图片

原文地址：https://www.cnblogs.com/ChevisZhang/p/13132049.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行