标签:
注:该文内容整理自ChinaHadoop.cn上的hadoop视频教程。
HDFS即Hadoop Distributed File System, 源于Google发表于2003年的论文,是一种分布式的文件系统。
HDFS优点:
HDFS缺点:
以上分布式文件系统的问题在于由于文件的大小不一致,导致了各个服务器的存储空间不均衡,个别服务器相对于其他服务器可能占用率非常高。其次,由于文件是整个存储在一个节点上,在读取文件时,难以实现并行读取,使得某一节点成为系统的网络瓶颈。
HDFS的设计思路是将每个文件分成大小相同的block,以多副本的形式存放在不同节点上,同时维护一个数据块和节点的映射关系,这样的设计解决了第一种方案存在的负载不均衡以及网络瓶颈的问题。
Active NameNode |
StandBy NameNode |
DataNode |
Client |
主Master(只有一个) | 主Master的热备份 | Slaves(有多个) | 文件切分 |
管理HDFS名称空间 | 定期合并fsimage和fsedits,推送给主Master | 存储数据块 | 管理和访问HDFS |
管理数据块映射关系 | 当Active NameNode出现故障, 快速切换成新的Active NameNode |
执行数据读写 | |
配置副本策略 | |||
处理客户端读取请求 |
HDFS数据块
HDFS写流程的特点是流水线式的写入,DataNode之间互相的写入数据,这样的好处是平衡了网络负载。
标签:
原文地址:http://www.cnblogs.com/finalboss1987/p/5192138.html