一封报警邮件,大量服务节点 redis 响应超时。 又来,好烦。 redis 响应变慢,查看日志,发现大量 TimeoutException。 大量TimeoutException,说明当前redis服务节点上已经堆积了大量的连接查询,超出redis服务能力,再次尝试连接的客户端,redis 服务节 ...
分类:
其他好文 时间:
2020-05-17 00:50:08
阅读次数:
119
1. 事故发生 某天晚上,收到系统CPU占用过高报警,立刻登录服务器查看cpu信息(top,命令即可),此时CPU占用率高达750%+, 查看GC日志,频繁的发生Full GC, 并且一次Full GC市场可达到6s,立刻使用jmap命令dump文件(命令:jmap dump:file=heap.b ...
分类:
其他好文 时间:
2020-05-14 23:53:23
阅读次数:
91
引子Hello ,小伙伴们,我又来更新啦,我们知道WinccOA 是一个事件驱动的系统,报警按钮数值变化都可以驱动一个事件,有了这些事件,我们就可以捕捉,实现我们的功能,因此没有在Gedi面板上给大家一个可以拖拽的定时器,但是有的时候呢我们想用定时器给界面界面添加些效果该怎么办呢?别急,下面我们就操 ...
日志集中式监控平台上线已经有一段时间,但是大部分情况下只是作为发布或者出问题时查看日志的便利工具使用。平时大家都不怎么主动上去看看。于是前几天把应用的错误日志也加上邮件、Hi和短信报警,马上就收到很多错误报警,引起了大家的重视。其中有一个Redis报错: Push notify error: => ...
分类:
其他好文 时间:
2020-05-14 19:21:01
阅读次数:
74
钉钉的群机器人可以做报警通知 例如以下shell脚本 #!/bin/bash msg='dingding_keywords:我是通知消息内容' url="https://oapi.dingtalk.com/robot/send?access_token=b84aec3bf95c8677697222a ...
分类:
系统相关 时间:
2020-05-13 17:22:12
阅读次数:
102
VictoriaMetrics 是一个不错的prometheus 集群方案,同时也提供了比较全的周边工具,同时社区也很活跃,以下 是一个简单的集成,后续落地实施踩坑 参考方案图 主要是基于VictoriaMetrics提供的周边工具做的集成 参考说明 主要是各点的一些说明,详细的可以看相关资料 说明 ...
分类:
其他好文 时间:
2020-05-13 16:40:21
阅读次数:
232
1、代码下载地址https://gitee.com/yyping2019/zabbix_police.git2、开发的目的本次开发主要基于作者简述的版本修改而来,主要增加了企业微信接收抱紧、邮件接收报警、slack接收报警,同时还区分不同报警足接收不同报警信息3、zabbix配置3-1.zabbixActions对Actions进行特殊设置,Defaultsubject极为重要,是识别收敛的标示。
分类:
微信 时间:
2020-05-13 12:00:20
阅读次数:
112
PrometheusPrometheus(普罗米修斯)首先联想到的是异形,一部很不错的电影。在这里指的是一套开源的监控、报警、时序数据库的组合。是由SoundCloud公司开发。Prometheus基本原理是通过HTTP协议周期性抓取(Pull方式)被监控组件的状态,好处是任意组件只要提供HTTP接口就可以接入监控系统,不需要任何SDK或者其他的集成过程。这样做非常适合虚拟化环境,比如VM或者Do
分类:
其他好文 时间:
2020-05-13 10:22:50
阅读次数:
126
使用场景,服务器报异常错误,想要及时收到报警信息并处理 环境介绍,本博使用yaf框架+php,仅仅提供思路,参考,具体根据自己实际情况进行编写 1,每十分钟执行一次任务脚本 每10分钟执行一次的任务 if [ "0" eq "$(($minute % 10))" ]; then php f ${pa ...
分类:
Web程序 时间:
2020-05-11 18:53:39
阅读次数:
202
一、介绍 Tsar是阿里巴巴开源的一个用来收集服务器系统和应用信息的采集报告工具,如收集服务器的系统信息(cpu,mem等),以及应用数据(nginx、haproxy等),收集到的数据存储在服务器磁盘上,可以随时查询历史信息,也可以将数据发送到nagios报警。Tsar能够比较方便的增加模块,只需要 ...
分类:
其他好文 时间:
2020-05-11 15:20:31
阅读次数:
65