日常nagios巡检中常见的问题排查:
中心接受不到本地nagios本地上传导致报警。
首先,通过监控中的msg_txt文件查看故障主机的ip.登录跳板机ping目标主机测试连通性
其次,登录目标主机检查本地nagios服务是否开启
检查本地iptables里面特定端口是否放开
排查结束后刷新中心的报警信息,完成同步。
2.提示目标主机高负载报警。
首先,通过跳板机登录目标主机,使用top命令查看当前进程,使用tail -f /var/log/message查看系统日志,排查报错原因
其次,确认高占用进程是否正常,用kill命令终止异常进程
排查结束后刷新中心的报警信息,完成同步。
3.提示目标主机磁盘报警
首先,通过跳板机登录目标主机,使用ps -ef | grep 目标应用名,如java tomcat,找到目标路径
通过du -sh *查看磁盘文件大小,以便找到空间过大的log文件
其次,通过df -h查看磁盘使用情况及当前本地上的挂载情况。
另外,可以查看/./home路径下和/var路径下的文件大小,清理一些连续性的日志文件
使用rm -rf 文件名头[0-n]来删除过去文件
排查结束后刷新中心的报警信息,完成同步。
本文出自 “beautifulloser” 博客,谢绝转载!
原文地址:http://beautifulloser.blog.51cto.com/8807936/1789856