码迷,mamicode.com
首页 > 其他好文 > 详细

torque 排错

时间:2015-10-16 15:26:26      阅读:251      评论:0      收藏:0      [点我收藏+]

标签:torque 排错

一:在管理节点发现某个节点状态为down,这种情况有两种原因

第一种原因:pbs_mom 配置文件错误

1.分析:服务pbs_mom启动后,默认首先去查看/var/spool/torque/mom_priv目录下是否有config文件,如果有则根据该文件下指出的pbsserver的主机名去联系管理节点(以该文件为准),如果没有该文件,则根据/var/spool/torque/server_name文件下指出的pbsserver的主机名去联系管理节点,那么如果这两个文件内指出的pbsserverIP地址该计算节点都不能ping通,那么该计算节点pbs_mom日志就会报如下错误:

10/16/2015 20:49:46;0001;  pbs_mom.4538;Svr;pbs_mom;LOG_ERROR::Inappropriate ioctl for device (25)in tcp_connect_sockaddr, cannot connect to port 9 in socket_connect_addr -errno:101 Network is unreachable

10/16/2015 20:49:46;0001;  pbs_mom.4538;Svr;pbs_mom;LOG_ERROR::mom_server_all_update_stat, Couldnot contact any of the servers to send an update

当然管理节点也会显示该节点状态为down

2.解决方法:

方法:如果在/var/spool/torque/mom_priv目录下存在config文件,修改该文件内$pbsserver的值为正确的管理节点主机名(该计算节点能ping通的主机名)

方法:在/var/spool/torque/mom_priv目录下不存在config文件时,请确保/var/spool/torque/server_name的值为正确的管理节点主机名

 

第二种原因:/var/spool/torque/server_priv/nodes文件内,主机名错误

1.分析:首先在计算节点查看pbs_mom日志,没有发现错误,接着查看管理节点的pbs_server日志,发现如下错误信息:

10/16/201521:22:26;0001;PBS_Server.11915;Svr;PBS_Server;LOG_ERROR::get_node_from_str,Node node1.wjcyf.com is reporting on node node1, which pbs_server doesn‘t know about

服务pbs_server发现了一个名为node1.wjcyf.com的主机,但是根据get_node_from_str得知主机名应该为node1,所有就不能联系该计算节点

2.解决方法

/var/spool/torque/server_priv/nodes文件内涉及到的计算节点的主机名,全部改为“uname -n”主机名,即如果在计算节点node1上运行命令uname -n得到的主机名为node1,那么该文件内node1的主机名就写为node1,如果是node1.wjcyf.com,就写为node1.wjcyf.com,以此类推

 


本文出自 “永不止步” 博客,转载请与作者联系!

torque 排错

标签:torque 排错

原文地址:http://wjcaiyf.blog.51cto.com/7105309/1703488

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!