真实案例:公司一台线上redis服务器前段时间在空闲状态下cpu也一直处于100%的状态,在查看对应进程的CPU后,发现一个奇怪的问题,平均CPU使用率远远大于redis进程、其它两个进程的所占用的CPU总和,但是top命令查看不到对应的占用过高的进程,于是初步怀疑有两种可能:1.硬件问题2.服务器受到***CPU病毒的***排查思路:1.因为是最新购买的云服务器,基本排除硬件问题(腾讯云监控会有报警
分类:
系统相关 时间:
2020-02-24 00:30:46
阅读次数:
250
k8s集群应用例如jenkins启动问题排查思路 待办rancher上的事件报告>pods日志>pods内容器日志(现获取容器id再查看容器日志,获取容器id使用的是相应问题pod的名来抓取,docker ps | grep "podname" ...
分类:
其他好文 时间:
2020-02-15 23:18:50
阅读次数:
75
处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。 当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。 本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代码点,进而提供解决该问题的思路。 对于线上系统突 ...
分类:
其他好文 时间:
2020-01-22 13:14:56
阅读次数:
83
背景 有处理过生产问题的同学基本都能遇到系统忽然缓慢,CPU突然飙升,甚至整个应用请求不可用。当出现这种情况下,在不影响数据准确性的前提下,我们应该尽快导出jstack和内存信息,然后重启系统,尽快回复系统的可用性,避免用户体验过差。本文针对CPU飙升问题,提供该问题的排查思路,从而能够快速定位到某 ...
分类:
编程语言 时间:
2020-01-13 01:15:11
阅读次数:
124
〇、一件事儿 以下分析是站在Java工程师的角度来分析的。 一、CPU分析 分析CPU的繁忙程度,两个指标:系统负载和CPU利用率 1、系统负载分析 系统负载 :在Linux系统中表示,一段时间内 正在执行 进程数和CPU 运行队列中就绪等待 进程数,以及非常重要的 休眠但不可中断 的进程数的平均值 ...
分类:
系统相关 时间:
2020-01-07 16:39:07
阅读次数:
152
上篇文章介绍了Netty内存模型原理,由于Netty在使用不当会导致堆外内存泄漏,网上关于这方面的资料比较少,所以写下这篇文章,专门介绍排查Netty堆外内存相关的知识点,诊断工具,以及排查思路提供参考 现象 堆外内存泄漏的现象主要是,进程占用的内存较高(Linux下可以用top命令查看),但Jav ...
分类:
Web程序 时间:
2020-01-02 18:55:34
阅读次数:
510
文 |齐光性能问题和 Bug 不同,后者的分析和解决思路更清晰,很多时候从应用日志(文中的应用指分布式服务下的单个节点)即可直接找到问题根源,而性能问题,其排查思路更为复杂一些。对应用进行性能优化,是一个系统性的工程,对工程师的技术广度和技术深度都有所要求。一个简单的应用,它不仅包含了应用代码本身, ...
分类:
其他好文 时间:
2019-12-16 13:19:41
阅读次数:
109
问题前提: 今天回归测试用例时,上午回归用例正常,下午回归用例98%的用例均报错,返回空指针异常,服务器运行正常未死机。 排查思路 1.重跑用例,查看日志,因为是录制的流量,很多数据都是自动mock了,所以无法排查链路上是否存在问题。 2.重跑全链路用例,发现服务基本正常,无问题,排除链路上的问题, ...
分类:
其他好文 时间:
2019-12-09 19:52:29
阅读次数:
136
最近线上系统(JDK1.7)出现了多次FullGC,但是情况都不一样,今天有时间,将FullGC的排查思路以及如何解决记录下,供大家一起探讨。 场景一: 系统发布上线之后,里面收到如下告警信息: 收到上述告警信息之后,第一反应就是代码新发布的功能有问题;但是由于当天发布功能有点多,一时半会无法定位到 ...
分类:
其他好文 时间:
2019-12-01 16:35:27
阅读次数:
229
访问vue项目页面空白 场景 内网访问访问url很快就可以打开页面,外网访问一片浏览器端一片空白 排查思路 [x] 由于不熟悉vue 先看了nginx的配置,以为是nginx的配置导致的 [x] 百度查询了vue 反向代理空白关键字看了一些感觉场景不对 [x] F12查看资源的加载,也是看到了很多资 ...
分类:
其他好文 时间:
2019-11-13 01:11:52
阅读次数:
114