运维人员处理服务器故障的方法总结
一、尽可能搞清楚问题的前因后果
二、查看有谁在线
who
last
三、查看之前执行了什么命令
history
四、查看现在在运行的进程是什么
pstree -a
ps aux
五、查看监听的网络服务
netstat -nxlp
netstat -ntlp
netstat -nulp
六、查看CPU 和内存
free -m
uptime
top
htop
七、查看硬件
lspci
dmidecode
ethtool
八、查看IO 性能
iostat -kx 2
vmstat 2 10
mpstat 2 10
dstat --top-io --top-bio #可以看到谁在进行 IO
九、查看挂载点 和 文件系统
mount
cat /etc/fstab
vgs
pvs
lvs
df -h
lsof +D /
本文出自 “银河系|计算机网络” 博客,谢绝转载!
原文地址:http://qqran.blog.51cto.com/10014850/1894927