当Hadoop集群的某单个节点出现问题时,一般不必重启整个系统,只须重启这个节点,它会自动连入整个集群。
在坏死的节点上输入如下命令即可:
hadoop-daemon.sh start datanode
hadoop-daemon.sh start secondarynamenode
案例如下:
hadoop节点死机,能ping通,ssh连接不上
案例:
时间:2014/9/11 上午
表现:hadoop的web界面上TC-hadoop018节点dead
症状:节点TC-hadoop018的ssh连接不上
解决办法:
通知机房管理员重启机器,
关闭防火墙 查看状态:/etc/init.d/iptatbles status 关闭:/etc/init.d/iptables stop
hadoop-daemon.sh stop datanode
hadoop-daemon.sh stop tasktracker
hadoop-daemon.sh start datanode
hadoop-daemon.sh start tasktracker
至此,启动成功
【慎用】必要的时候,查看web界面,如果没有正在运行的job,直接重启整个集群。
Hadoop的secondarynamenode端口50090不通
案例:
时间:2014/9/11 下午
表现:sos2报警提示123.125.244.6_50090端口报警
症状:jps命令123.125.244.6机器上SecondaryNameNode进程没有
解决办法:
hadoop-daemon.sh stop secondarynamenode
hadoop-daemon.sh start secondarynamenode
至此,启动成功
Hadoop集群datanode死掉或者secondarynamenode进程消失处理办法
原文地址:http://duanvip.blog.51cto.com/10557222/1708241