标签:torque 排错
一:在管理节点发现某个节点状态为down,这种情况有两种原因
第一种原因:pbs_mom 配置文件错误
1.分析:服务pbs_mom启动后,默认首先去查看/var/spool/torque/mom_priv目录下是否有config文件,如果有则根据该文件下指出的pbsserver的主机名去联系管理节点(以该文件为准),如果没有该文件,则根据/var/spool/torque/server_name文件下指出的pbsserver的主机名去联系管理节点,那么如果这两个文件内指出的pbsserver的IP地址该计算节点都不能ping通,那么该计算节点pbs_mom日志就会报如下错误:
10/16/2015 20:49:46;0001; pbs_mom.4538;Svr;pbs_mom;LOG_ERROR::Inappropriate ioctl for device (25)in tcp_connect_sockaddr, cannot connect to port 9 in socket_connect_addr -errno:101 Network is unreachable
10/16/2015 20:49:46;0001; pbs_mom.4538;Svr;pbs_mom;LOG_ERROR::mom_server_all_update_stat, Couldnot contact any of the servers to send an update
当然管理节点也会显示该节点状态为down
2.解决方法:
方法⑴:如果在/var/spool/torque/mom_priv目录下存在config文件,修改该文件内$pbsserver的值为正确的管理节点主机名(该计算节点能ping通的主机名)
方法⑵:在/var/spool/torque/mom_priv目录下不存在config文件时,请确保/var/spool/torque/server_name的值为正确的管理节点主机名
第二种原因:/var/spool/torque/server_priv/nodes文件内,主机名错误
1.分析:首先在计算节点查看pbs_mom日志,没有发现错误,接着查看管理节点的pbs_server日志,发现如下错误信息:
10/16/201521:22:26;0001;PBS_Server.11915;Svr;PBS_Server;LOG_ERROR::get_node_from_str,Node node1.wjcyf.com is reporting on node node1, which pbs_server doesn‘t know about
服务pbs_server发现了一个名为node1.wjcyf.com的主机,但是根据get_node_from_str得知主机名应该为node1,所有就不能联系该计算节点
2.解决方法:
把/var/spool/torque/server_priv/nodes文件内涉及到的计算节点的主机名,全部改为“uname -n”主机名,即如果在计算节点node1上运行命令uname -n得到的主机名为node1,那么该文件内node1的主机名就写为node1,如果是node1.wjcyf.com,就写为node1.wjcyf.com,以此类推
本文出自 “永不止步” 博客,转载请与作者联系!
标签:torque 排错
原文地址:http://wjcaiyf.blog.51cto.com/7105309/1703488