码迷,mamicode.com
首页 > 其他好文 > 详细

[Unfinished] HDFS JournalNode 故障

时间:2017-02-28 13:32:00      阅读:470      评论:0      收藏:0      [点我收藏+]

标签:ima   cloud   rand   finish   base   问题   表示   oom   技术   

背景


某天凌晨四点左右,HBase RegionServer 宕机自动拉起,查看日志发现是HDFS 在进行HA切换,15次重试仍连不上可写的active,于是挂了。所以根本问题是hdfs。

技术分享

 

日志定位


 通过日志定位,发现JournalNode一直在抛错,几乎打满了日志:

技术分享

技术分享

该链接CDH专家表示 ([Solved] hdfs journalnode fail, can not start ) ,很可能是JN(JournalNode)文件损坏或HDFS升级后文件版本不一致,在我们这边升级这种原因可以排除。

随后我们又在JN的out重定向中发现了磁盘空间不足错误:

技术分享

 

分析


根据现有的日志,我们猜测,可能是4点HDFS切换主从时,此台机器的JN写edit_log过程中磁盘爆了,然后JN进程 OOM退出,导致edit_log不完整,处于corrupted状态。我们的集群是3 JournalNode,另外两台日志看起来正常。

 

[Unfinished] HDFS JournalNode 故障

标签:ima   cloud   rand   finish   base   问题   表示   oom   技术   

原文地址:http://www.cnblogs.com/lhfcws/p/6478235.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!