概述继上一篇Thanos部署与实践发布半年多之后,随着技术的发展,本系列又迎来了一次更新。本文将介绍如何结合Kvass与Thanos,来更好的实现大规模容器集群场景下的监控。有Thanos不够吗?有同学可能会问,Thanos不就是为了解决Prometheus的分布式问题么,有了Thanos不就可以实现大规模的Prometheus监控了吗?为什么还需要个Kvass?Thanos解决了Promethe
分类:
其他好文 时间:
2020-12-14 13:19:57
阅读次数:
2
前言由于价格监控项目的需求,实现了一个小的邮件发送接口服务,使用了一个单独的SpringBoot项目,给他取名为spring-mail-sender,开源在了Github上。内部我给他命名为提醒服务,因为未来希望还能扩展下,用来做短信发送服务,或者安卓等推送服务的API。简介本项目使用springboot,采用webapi的方式提供邮件,短信等服务的调用接口,目前仅支持邮件提醒。https://g
分类:
编程语言 时间:
2020-12-11 12:38:30
阅读次数:
23
zabbix微信报警:loginhttps://work.weixin.qq.com/creatapplicationfind--corpid--agentid--corpsecretgrepalertscripts/etc/zabbix/zabbix_server.confcd/usr/lib/zabbix/alertscriptswgethttps://raw.githubuserconten
分类:
微信 时间:
2020-12-09 12:00:40
阅读次数:
12
技巧总结-2018-062018.05grep持续监控Log:tail-ffile|grep--line-bufferedmy_pattern列表和deque的区别:根据index读list,时间复杂度为O(1)但deque是O(n)在两头插入数据,deque的时间复杂度为O(1),list为O(n)deque是一个双向链表,所以操作头尾非常简单。随机往中间插入数据,deque与list的时间复杂
分类:
其他好文 时间:
2020-12-09 11:52:54
阅读次数:
5
故障症状有一个Centreon单节点监控系统(不含分布式),隔三差五的挂掉,幸好我们安排人手,时不时访问web管理后台,才没出现大的纰漏。其主要症状是Poller失效,但系统其它进程比如Apache、PHP、Centreon-engine等运行正常。在CentreonWeb管理界面重载(reload)或者重启(restart)cbd服务,无效;登录系统,执行指令systemctlstartcbd,
分类:
其他好文 时间:
2020-12-09 11:37:51
阅读次数:
8
本文将继续介绍elasticsearch索引监控之Indicessegments与IndicesShardstoresapi。IndicesSegments提供Lucene索引(分片级别)使用的segments(段信息)。其对应的示例代码如下:1publicstaticfinalvoidtest_Indices_segments(){2TransportClientclient=EsClient.
如果我们所在公司的业务量比较大,在生产环境经常会出现JVM内存溢出的现象,那我们该如何快速响应,快速定位,快速恢复问题呢?本文将通过一个线上环境JVM内存溢出的案例向大家介绍一下处理思路与分析方法。案例:架构组接到某项目组反馈,Zabbix监控上显示JMX不可用,请求协助处理。分析思路:JMX不可用,往往是由于垃圾回收时间停顿时间过长、内存溢出等问题引起的。线上故障分析的原则是首先要采取措施快速恢
分类:
其他好文 时间:
2020-12-08 12:46:27
阅读次数:
4
上一篇文章中《图解Linux网络包接收过程》,我们梳理了在Linux系统下一个数据包被接收的整个过程。Linux内核对网络包的接收过程大致可以分为接收到RingBuffer、硬中断处理、ksoftirqd软中断处理几个过程。其中在ksoftirqd软中断处理中,把数据包从RingBuffer中摘下来 ...
分类:
系统相关 时间:
2020-12-08 12:45:42
阅读次数:
10
监控系统是运维体系乃至整个软件产品生命周期中最重要的一环,完善的监控可以帮助我们事前及时发现故障,事后快速追查定位问题。而在以微服务为代表的云原生架构体系中,系统分为多个层次,服务之间调用链路复杂,系统中需要监控的目标非常多,如果没有一个完善的监控系统就难以保证整体服务的持续稳定。
分类:
Web程序 时间:
2020-12-08 12:22:46
阅读次数:
8
1、背景公司一个RocketMQ集群由4主4从组成,突然其中3台服务器“竟然”在同一时间下线,其监控显示如下:依次查看三台机器的监控图形,时间戳几乎完美“吻合”,不可思议吧。2、故障分析出现问题,先二话不说,马上重启各服务器,尽快恢复集群,降低对业务的影响,接下来开始对日志进行分析。Java进程自动退出(rocketmq本身就是一个java进程),一种最常见的问题是由于内存溢出或由于内存泄漏导致进
分类:
系统相关 时间:
2020-12-07 12:49:05
阅读次数:
15