HDFS2.0 NameNode HA 切换失败后的恢复（元数据写坏）

时间：2014-09-10 10:54:10 阅读：490 评论：0 收藏：0 [点我收藏+]

在测试 HDFS2.0 的 NameNode HA 的时候，并发put 700M的文件，然后 Kill 主 NN ；发现备 NN 切换后进程退出。

2014-09-03 11:34:27,221 FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.136.149.96:8485, 10.136.149.97:8485, 10.136.149.99:8485], stream=null))
org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 1 successful responses:
10.136.149.99:8485: null [success]
2 exceptions thrown:
10.136.149.97:8485: org/apache/hadoop/io/MD5Hash

然后重启 NN 两个 NN均失败，

怀疑是 JN 那里有问题，可能有垃圾产生，bin/hdfs namenode -initializeSharedEdits 启动NN ，还是失败

bubuko.com,布布扣

同步两个NN的 current 元数据目录，重启所有 JN，然后启动仍然失败；

怀疑是 NN 对元数据的合并出了问题，删除报错开始的 edits 文件，修改 seen_txid 中的 txid 编号；

启动 NN 成功，主备NN 均启动成功。

具体原因还在定位中，但至少环境已经恢复了，最近的edits 被遗弃了。

HDFS2.0 NameNode HA 切换失败后的恢复（元数据写坏）

标签：hadoop hdfs namenode

原文地址：http://blog.csdn.net/yu_fu/article/details/39177817

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行