码迷,mamicode.com
首页 > 其他好文 > 详细

HDFS集群常见异常及排查步骤

时间:2017-10-05 12:20:54      阅读:208      评论:0      收藏:0      [点我收藏+]

标签:执行   oop   删除   命令   读取   信息   name   监控   文件   

1.问题一: 权限问题。比如hdfs需要写入目录的权限不足,本地目录工作异常,(权限问题),出现异常后大家不要看到一堆错误代码就心慌,不必害怕。hadoop目录下有个日志文件夹. 如果那个节点 出现问题就查看日志信息。 tail  -F  /XXX.log    tail -F 可以动态监控文件内容的变化。

2.问题二: 文件属主不一致。比如文件是普通用户修改的或者文件没有相应的权限。root用户就无法实现读取或写入功能。 可以用文件所有者赋予权限:  chown  +  username xxx.

3.问题三: 比如上传文件,报错。NameNode is  safe mode.   这是因为集群处于安全模式下,安全模式下禁止对文件的任何操作,包括写and 删除等操作。这时候需要退出安全模式。

 退出安全模式的命令:  hdfs  dfsadmin  -safemode  leave。                    查看集群的状态信息   hdfs   dfsadmin   -report 。  集群刚启动DN会向NN汇报一些信息处于安全模式是正常的,如果集群启动后还是不退出就出现异常了。需要手动退出安全模式。  可以查看日志信息或重启集群。

4.问题四:  启动start-dfs.sh 后上传文件,发现上传失败。报异常错误。就尝试把tmp目录删除后重新格式化。  hadoop   namenode  -format 

5.问题五: 用JPS (jps) 小写查看进程是否正常出现。如果出现后隔几秒就挂掉,说明进程异常。可以查看对应的日志。在logs目录下。

6.问题六: 如果进程不存在,就查看相关进程日志文件来分析错误。如果进程存在还是有问题,可能是进程间的集群协调有问题。可以通过查看集群的报告信息。

   hdfs  dfsadmin   -report

7.问题七: 如果进程正常出现,但是执行文件上传下载还是有问题。就查看进程是否正常可用。  用指令hdfs  dfsadmin   -report  查看对应的进程是否可用的状态。可能是集群刚启动,进程还没有加入到集群的 原因。可用尝试重新上传或下载文件测试。

8问题八: 如果实在找不到原因就尝试把tmp目录删掉,重新格式化集群,再次启动集群。 前提是linux系统的环境正常。

 

欢迎补充哦

 

HDFS集群常见异常及排查步骤

标签:执行   oop   删除   命令   读取   信息   name   监控   文件   

原文地址:http://www.cnblogs.com/xiaohu2011/p/7628918.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!