·mail.sh内容
其中 mail.py 内容到这里下载https://note.youdao.com/share/?id=dac98a142b86abba9b118e113969d4c4&type=note#/
mail.sh为的是做告警手收敛
log=$1 t_s=`date +%s` t_s2=`date -d "2 hours ago" +%s` if [ ! -f /tmp/$log ] then echo $t_s2 > /tmp/$log fi t_s2=`tail -1 /tmp/$log|awk '{print $1}'` echo $t_s>>/tmp/$log v=$[$t_s-$t_s2] echo $v if [ $v -gt 3600 ] then ./mail.py $1 $2 $3 echo "0" > /tmp/$log.txt else if [ ! -f /tmp/$log.txt ] then echo "0" > /tmp/$log.txt fi nu=`cat /tmp/$log.txt` nu2=$[$nu+1] echo $nu2>/tmp/$log.txt if [ $nu2 -gt 10 ] then ./mail.py $1 "trouble continue 10 min $2" "$3" echo "0" > /tmp/$log.txt fi fi
理解:
第一次告警,之前没有告警过,没执行过mail.sh
t_s为现在时间,t_s2为目前时间前2小时,时间差为7200秒
那么如果$log(在mon.conf中定义的logfile)不存在,则把2小时前的时间戳写入到$log中,也就是7200
t_s2为7200,把t_s追加到$log中
差值t_s和t_s2差值v等于7200,大于3600,所有发邮件告警mail.py,并且计数 0 到 $log.txt中
第一次告警结束
mail.sh一分钟执行一次,第二次执行时
t_s2=`tail -1 /tmp/$log|awk '{print $1}'`会把t_s2=`date -d "2 hours ago" +%s`的值覆盖掉,因此
t_s2为1分钟前的时间,因为$log为1分钟前,然后在追加现在时间到$log
差值v是60,小于3600,不告警,直接计数
那么执行else,判断$log.txt是否存在,第二次执行时不存在,所有计数0到$log.txt中,结束判断
因此nu=0,nu2=1,把nu2也就是1计数写入到$log.txt中
判断nu2是否大于10,那么显然不大于10,直接结束判断,结束脚本
第三次执行时,跟第二次类似,只不过计数会变化,nu=1,nu2=2
以此类推,在最后一次告警10分钟后,nu=10,nu2=11>10,那么符合if [ $nu2 -gt 10 ]的判断,执行mail.py告警,并把计数器重新清为0
如果之后没有问题,不会执行mail.sh,如果有问题,每一分钟执行一次mail.sh,十分钟后如果问题没有解决,再发邮件告警
20.26 运行告警系统
把main.sh加入crontab,一分钟执行一次
[root@localhost shares]# crontab -e
* * * * * cd /usr/local/sbin/mon/bin;bash main.sh
[root@localhost bin]# sh -x main.sh + export send=1 + send=1 ++ grep -A1 'ens33: ' ++ awk '/inet/ {print $2}' ++ /sbin/ifconfig + export addr=192.168.65.128 + addr=192.168.65.128 ++ pwd + dir=/usr/local/sbin/mon/bin ++ echo /usr/local/sbin/mon/bin ++ awk -F/ '{print $NF}' + last_dir=bin + '[' bin == bin ']' + conf_file=../conf/mon.conf ++ date '+%F %T' + echo '2018-04-23 22:23:48 load average' 2018-04-23 22:23:48 load average + /bin/bash ../shares/load.sh 22:23:48 load is 0 + grep -q to_mon_502=1 ../conf/mon.conf ++ awk -F = '{print $2}' ++ sed 's/ //g' ++ grep logfile= ../conf/mon.conf + export log=/data/log/xxx.xxx.com/access.log + log=/data/log/xxx.xxx.com/access.log + /bin/bash ../shares/502.sh grep: /data/log/xxx.xxx.com/access.log: No such file or directory 22:23:48 502 0
mail.sh 中的 $1,$2,$3 就是mail.py中的 to=sys.argv[1],subject=sys.argv[2],content=sys.argv[3] 三个参数,$1发送给谁,$2主题,$3内容
·如果load.sh有问题,那么它发告警,那么也是要带三个参数的,给谁发,主题,内容
(第三个参数也可以cat,把内容作为第三个参数)
原文地址:http://blog.51cto.com/11530642/2107007