码迷,mamicode.com
首页 > 其他好文 > 详细

超算CST DC分布式作业Main Controller 主控节点程序连接不上问题

时间:2016-07-19 18:25:43      阅读:179      评论:0      收藏:0      [点我收藏+]

标签:

问题:CST的main controller 程序在大量程序仿真时会出现失去响应和崩溃

ssh到主控节点(比如节点名是mc06):ssh mc06 

查看main controller进程状态:/etc/init.d/lsb-maincontroller2013 status

1提示Not running ,侧重新开启/etc/init.d/lsb-maincontroller2013 start

2提示is up and running ,则表示程序正在运行,但可能已无响应,这个时候手动结束main controller进程和重启进程

第一步:ps -ef | grep CSTDCMaincontroller.real   (查找到main controller进程的PID,可能会看到两个与main controller相关的进程,其中有一个进程是刚刚我们用grep 命令产生的进程,这个不用管它)

第二步:kill -9 pid  (杀掉main controller进程)

第三步:ps -ef | grep CSTDCMaincontroller.real    (重新确认系统已经没有main controller相关的进程了)

第四步:/etc/init.d/lsb-maincontroller2013 start  (重新再启动main controller 进程)

 

这个时候再重新连接主控节点MC06就应该能连接上了 。

超算CST DC分布式作业Main Controller 主控节点程序连接不上问题

标签:

原文地址:http://www.cnblogs.com/wangnengwu/p/5685469.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!