ESXi里面的一台ubuntu因为物理机当机,然后也挂了,重启后发现nagios有问题。
表现为:
监测的服务有Current Loas、DRBD、Disk_Space、PING、SSH。 而有问题的就只有PING、SSH。
在服务器端测试如下:
root@Nagios:/usr/local/nagios/libexec# ./check_nrpe -H 192.168.100.5 -c check_ping CHECK_NRPE: Socket timeout after 10 seconds.
SSH也是同样的错误。
网上搜索无非是加上 -t 加上时间。 这样试过还是一样。
然后查日志,查nrpe.cfg(有两台一样的虚拟机,配置也一样,但没问题。)查iptables(设置了相关规则,但并没有针服务器的)
然后在客户端也测试一下:
root@NFS1:/usr/local/nagios/libexec# ./check_nrpe -H 127.0.0.1 -c check_ping -t 20 CHECK_NRPE: Socket timeout after 20 seconds. root@NFS1:/usr/local/nagios/libexec# ./check_nrpe -H 127.0.0.1 -c check_ssh CHECK_NRPE: Socket timeout after 10 seconds. root@NFS1:/usr/local/nagios/libexec# ./check_ping -H 127.0.0.1 -w 3000.0,80% -c 5000.0,100% -p 5 PING CRITICAL - Packet loss = 100%|rta=5000.000000ms;3000.000000;5000.000000;0.000000 pl=100%;80;100;0
最后试试 ip a(习惯就这个) 然后看了下似乎和另一台不一样,具体如下:
root@NFS1:/usr/local/nagios/libexec# ip a 1: lo: <LOOPBACK> mtu 16436 qdisc noqueue state DOWN link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00 inet 127.0.0.1/8 scope host lo 2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000 link/ether 00:50:56:95:5c:40 brd ff:ff:ff:ff:ff:ff inet 192.168.100.5/24 brd 192.168.100.255 scope global eth0 inet6 fe80::250:56ff:fe95:5c40/64 scope link valid_lft forever preferred_lft forever
lo口居然是down的状态,我去。
我看了 /etc/network/interfaces 是 auto 的
重启一下居然是down。晕了。
down的原因目前没找到。日志里面也没有相关的记录。
然后设置为 up 问题搞定!
原文地址:http://abian.blog.51cto.com/751059/1662241