hdfs的伪分布式的工作原理

时间：2015-02-25 23:52:18 阅读：146 评论：0 收藏：0 [点我收藏+]

标签：hdfs 架构原理

【简介】

1、hdfs架构

hdfs伪分布式架构只需要有三个部分即可，NameNode是老大，DataNode是小弟，Secondary NameNode是助理。

客户端Client跟NameNode通信（RPC通信机制，后面会介绍），Secondary NameNode负责数据的同步。

2、元数据的存储细节

NameNode的元数据是存放在内存当中的。

数据解读：有一个文件/test/a.log，保存了3个副本，一共被切分成了两块，第一块分别存放在了那几个地方，第二块存放在了那几个地方。

客户端需要下载该文件的时候，首先查询NameNode的元数据，知道该文件分成了哪几块，首先去h0机器下载blk_1，然后去h0下载blk_2，如果h0的blk_2损坏了（如何判断损坏?校验和机制），那么会根据路由器的就近原则去h2下载blk_2,以此类推，将这个文件下载下来。

【NameNode的工作原理】

NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树，文件/目录的元信息和每个文件对应的数据块列表（元素据）。接收用户的操作请求。

NameNode的文件包括三种，这些文件是保存在linux的文件系统中。：

（1）fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息，有Secondary NameNode负责同步，某一时段，说明并不能实时同步。

（2）edits:操作日志文件。

（3）fstime:保存最近一次checkpoint的时间，还原点。

1、NameNode的原理

Namenode始终在内存中保存metedata，用于处理“读请求”

（1）到有“写请求”到来时，namenode会首先写editlog到磁盘，即向edits文件中写日志，成功返回后，才会修改内存，并且向客户端返回

（2）Hadoop会维护一个fsimage文件，也就是namenode中metedata的镜像，但是fsimage不会随时与namenode内存中的metedata保持一致，而是每隔一段时间通过Secondary namenode将fsimage合并edits文件来更新内容。

2、Secondary NameNode的原理

Secondary NameNode是HA（高可靠行）的一个解决方案。但不支持热备（实时同步）。配置即可。

执行过程：从NameNode上下载元数据信息（fsimage,edits），然后把二者合并，生成新的fsimage，在本地保存，并将其推送到NameNode，替换旧的fsimage.

默认在安装在NameNode节点上，但这样...不安全！

3、Secondary NameNode的工作流程

（1）secondary通知namenode切换edits文件，生成edits.new

（2）NameNode复制edits和fsimage文件，传递给secondary从namenode(通过http)

（3）secondary将fsimage载入内存，然后开始合并edits，生成fsimage.ckpt

（4）secondary通过http post将fsimage.ckpt发送给NameNode

（5）NameNode将fsimage替换为fsimage.ckpt

（6）NameNode将eidts替换为edits.new

(7)等待下一次的同步（checkpoint）

何时进行checkpoint？两种情况下会进行checkpoint：

（1）fs.checkpoint.period 指定两次checkpoint的最大时间间隔，默认3600秒。即每隔3600秒checkpoint一次。

（2）fs.checkpoint.size规定了edits文件的最大值，一旦超过这个值则强制checkpoint，不管是否到达最大时间间隔。默认大小是64M。

【DateNode的工作原理】

（1）提供真实文件数据的存储服务。

（2）文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。HDFS默认Block大小是128MB，以一个256MB文件，共有256/128=2个Block.

（3）不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间

（4）Replication。多复本。默认是三个。

【总结】

虽然伪分布式现在不再用，但是这些概念和思想还是非常重要的。

本文出自 “陌途” 博客，请务必保留此出处http://flycc258.blog.51cto.com/8624126/1615325

hdfs的伪分布式的工作原理

标签：hdfs 架构原理

原文地址：http://flycc258.blog.51cto.com/8624126/1615325

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行