大数据离线（三）

时间：2018-08-01 18:27:24 阅读：157 评论：0 收藏：0 [点我收藏+]

HDFS

HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统，分布式文件系统解决的问题就是数据存储。

首先，它是一个文件系统，用于存储文件，通过统一的命名空间目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

master/slave架构
Namenode 是 HDFS 集群主节点，Datanode 是 HDFS 集群从节点
分块存储
HDFS 中的文件在物理上是分块存储（block）的
名字空间（NameSpace）
HDFS 支持传统的层次型文件组织结构，Namenode 负责维护文件系统的名字空间
Namenode元数据管理
我们把目录结构及文件分块位置信息叫做元数据。Namenode 负责维护整个hdfs 文件系统的目录树结构，以及每一个文件所对应的 block 块信息。
Datanode数据存储
文件的各个 block 的具体存储管理由 datanode 节点承担。每一个 block 都可以在多个 datanode 上。Datanode 需要定时向 Namenode 汇报自己持有的 block信息
副本机制
为了容错，文件的所有 block 都会有副本
一次写入，多次读出
HDFS 是设计成适应一次写入，多次读出的场景，且不支持文件的修改。

DataNode 负责将实际数据存储在 HDFS 中。
DataNode 也称为 Slave。
NameNode 和 DataNode 会保持不断通信。
DataNode 启动时，它将自己发布到 NameNode 并汇报自己负责持有的块列表。
当某个 DataNode 关闭时，它不会影响数据或群集的可用性。NameNode 将安排由其他 DataNode 管理的块进行副本复制。
DataNode 所在机器通常配置有大量的硬盘空间。因为实际数据存储在DataNode 中。
DataNode 会定期（dfs.heartbeat.interval 配置项配置，默认是 3 秒）向NameNode 发送心跳，如果 NameNode 长时间没有接受到 DataNode 发送的心跳， NameNode 就会认为该 DataNode 失效。
block 汇报时间间隔取参数 dfs.blockreport.intervalMsec,参数未配置的话默认为 6 小时.

NameNode 负责管理整个文件系统元数据；DataNode 负责管理具体文件数据块存储；Secondary NameNode 协助 NameNode 进行元数据的备份。
HDFS 的内部工作机制对客户端保持透明，客户端请求访问 HDFS 都是通过向NameNode 申请来进行。

原文地址：https://www.cnblogs.com/lifuwei/p/9394122.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行