前言前几日早上打开邮箱收到一封监控报警邮件:某某ip服务器CPU负载较高,请研发尽快排查解决,发送时间正好是凌晨。其实早在去年我也处理过类似的问题,并记录下来:《一次生产CPU100%排查优化实践》不过本次问题产生的原因却和上次不太一样,大家可以接着往下看。问题分析收到邮件后我马上登陆那台服务器,看了下案发现场还在(负载依然很高)。于是我便利用这类问题的排查套路定位一遍。首先利用top-c将系统资
分类:
其他好文 时间:
2020-12-16 12:53:07
阅读次数:
3
0、题记在写繁重的业务场景下,你是否遇到过Elasticsearch集群的性能问题?你是否遇到过Elasticsearch数据索引化速度限制问题?你是否遇到过搜索花费时间太长而无法执行的延迟问题?你是否遭遇过Elasticsearch集群故障排查的挑战?你是否努力尝试在零停机情况下提高Elasticsearch集群的稳定性?你是否想过从监控的角度去看Elasticsearch关键指标?如果你对以上
分类:
其他好文 时间:
2020-12-16 12:19:29
阅读次数:
2
Ambari2.7.4+HDP3.1.4安装Centos7离线安装标签(空格分隔):大数据平台构建一:关于HDP的介绍二:系统环境介绍三:系统环境初始化四:安装HDP3.1.4平台一:关于HDP的介绍1.1ambari的介绍Ambari是一种基于Web的工具,支持ApacheHadoop集群的创建、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、P
分类:
其他好文 时间:
2020-12-16 11:45:59
阅读次数:
4
概述继上一篇Thanos部署与实践发布半年多之后,随着技术的发展,本系列又迎来了一次更新。本文将介绍如何结合Kvass与Thanos,来更好的实现大规模容器集群场景下的监控。有Thanos不够吗?有同学可能会问,Thanos不就是为了解决Prometheus的分布式问题么,有了Thanos不就可以实现大规模的Prometheus监控了吗?为什么还需要个Kvass?Thanos解决了Promethe
分类:
其他好文 时间:
2020-12-14 13:19:57
阅读次数:
2
前言由于价格监控项目的需求,实现了一个小的邮件发送接口服务,使用了一个单独的SpringBoot项目,给他取名为spring-mail-sender,开源在了Github上。内部我给他命名为提醒服务,因为未来希望还能扩展下,用来做短信发送服务,或者安卓等推送服务的API。简介本项目使用springboot,采用webapi的方式提供邮件,短信等服务的调用接口,目前仅支持邮件提醒。https://g
分类:
编程语言 时间:
2020-12-11 12:38:30
阅读次数:
23
技巧总结-2018-062018.05grep持续监控Log:tail-ffile|grep--line-bufferedmy_pattern列表和deque的区别:根据index读list,时间复杂度为O(1)但deque是O(n)在两头插入数据,deque的时间复杂度为O(1),list为O(n)deque是一个双向链表,所以操作头尾非常简单。随机往中间插入数据,deque与list的时间复杂
分类:
其他好文 时间:
2020-12-09 11:52:54
阅读次数:
5
故障症状有一个Centreon单节点监控系统(不含分布式),隔三差五的挂掉,幸好我们安排人手,时不时访问web管理后台,才没出现大的纰漏。其主要症状是Poller失效,但系统其它进程比如Apache、PHP、Centreon-engine等运行正常。在CentreonWeb管理界面重载(reload)或者重启(restart)cbd服务,无效;登录系统,执行指令systemctlstartcbd,
分类:
其他好文 时间:
2020-12-09 11:37:51
阅读次数:
8
本文将继续介绍elasticsearch索引监控之Indicessegments与IndicesShardstoresapi。IndicesSegments提供Lucene索引(分片级别)使用的segments(段信息)。其对应的示例代码如下:1publicstaticfinalvoidtest_Indices_segments(){2TransportClientclient=EsClient.
如果我们所在公司的业务量比较大,在生产环境经常会出现JVM内存溢出的现象,那我们该如何快速响应,快速定位,快速恢复问题呢?本文将通过一个线上环境JVM内存溢出的案例向大家介绍一下处理思路与分析方法。案例:架构组接到某项目组反馈,Zabbix监控上显示JMX不可用,请求协助处理。分析思路:JMX不可用,往往是由于垃圾回收时间停顿时间过长、内存溢出等问题引起的。线上故障分析的原则是首先要采取措施快速恢
分类:
其他好文 时间:
2020-12-08 12:46:27
阅读次数:
4
上一篇文章中《图解Linux网络包接收过程》,我们梳理了在Linux系统下一个数据包被接收的整个过程。Linux内核对网络包的接收过程大致可以分为接收到RingBuffer、硬中断处理、ksoftirqd软中断处理几个过程。其中在ksoftirqd软中断处理中,把数据包从RingBuffer中摘下来 ...
分类:
系统相关 时间:
2020-12-08 12:45:42
阅读次数:
10