标签:nrpe
nrpe监控对象和阀值:
监控对象 | 监控阀值 | |
主 机 资 源 | 主机存活: check_ping | -w 3000.0,80% -c 5000.0,100% -p 5(3000毫秒响应时间内, 丢包率超过80%报警告,5000毫秒响应时间内,丢包率超过 100%报危急,一共发送5个包) |
登录用户: check_user | -w 5 -c 10(w为警告,c为危急) | |
系统负载: check_load | -w 15,10,5 -c 30,25,20(1分钟,5分钟,15分钟大于对应 的等待进程数则警告或危急) | |
磁盘占用率: check_disk | -w 20% -c 10% -p /(根分区剩余空间为总大小的20%警告, 10%危急,-p后是根分区) | |
脚本检测磁盘I/O: check_iostat | -w 5 –c 10 (磁盘I/O的iowait超过5%报警告,超过10%报危急) | |
检测僵尸进程: check_zombie _procs | -w 5 -c 10 -s Z(有5个僵尸进程报警告,10个报危急) | |
检测总进程数: check_total_procs | -w 150 -c 200(总进程到150个警告,200个报危急) | |
脚本检测内存剩余: check_mem | -w 90% -c 95%(内存空闲率90%以上报警告,95%以上报危急) | |
检测交换分区使用率: check_swap | -w 20% -c 10%(交换分区剩余空间为总大小的20%警告, 10%危急) | |
应 用 服 务 监 控 | 监控服务端口: check_tcp | -H localhost2 -p 80(主机与对应的端口号) |
监控页面响应时间: check_http | -H localhost2 -u http:\/\/localhost2/test.jsp –w 5 –c 10(检查页面,超过5s报警告,超过10s报危急) | |
脚本检测IP连接数: check_ips | -w 200 –c 250(IP连接数超过200报警告,超过250报危急) | |
流量 监控 | 监控server流量: Check_traffic | -V 2c -C public -H localhost2 -I 2 -w 12,30 -c 15,35 -M –b(snmp版本,用户,主机,对应网卡,警告阀值,危急阀值) |
本文出自 “黄怡善的运维博客” 博客,请务必保留此出处http://linuxpython.blog.51cto.com/10015972/1654670
标签:nrpe
原文地址:http://linuxpython.blog.51cto.com/10015972/1654670