在linux服务器上,用uptime、top查看系统的负载明显过高,经过排查,发现是因为代码中死循环造成的。具体的排查过程请参照本文。
使用top命令,发现load average指标值都在1附近,偏高。当然也可以用uptime。用top的好处是可以看到各个进程使用资源的一个排名。在top结果页面,输入P,以cpu消耗进行排名,发现有个java进程占用了98%的cpu资源。记下该进程的pid,通过ps -f -p pid命令,可以发现该进程是tomcat进程,它提供了一个web服务。
目前进程的信息对我们问题的排查没有任何帮助,我们需要查看线程的信息。我们知道,jdk提供了对线程的监控命令jstack,但是我们直接使用此命令帮助不大。我们可以先找出消耗资源较多的线程,这里又要用到top命令。top命令不仅可以查看进程,还可以查看线程。使用top -p pid,只对该进程进行监控,进入界面后,输入H,可以查看该进程下各线程使用资源的情况。截图如下:
可以看出线程20591消耗资源较多。
接下来,我们就需要看看这个线程到底干了什么事情。此时就需要用到jdk提供的jstack工具了。
将线程栈打出来:jstack -F pid,截图如下:
jstack会将进程下所有线程信息打印出来,上图只是截取了部分线程信息。根据线程号,可以找到对应的线程栈。
通过线程栈,找到对应的java代码,发现是因为死循环导致。修改代码重新部署,系统恢复正常。
原文地址:http://blog.csdn.net/ado1986/article/details/42169065