记录一次阿里云服务器故障排查思路公司网络是nat环境问题:同一个服务有两台服务器172.19.19.252172.19.19.187两台服务器要连node5发现172.19.19.252这台服务器连不通思路:1.两台服务器是同一个安全组环境相同所以排除安全组防火墙的问题2.pingnode5发现可以ping通telnet不通tcpdump抓包尝试抓包,主机能收到,但是没有给出响应经过查找资料找到解
分类:
其他好文 时间:
2019-10-20 00:56:50
阅读次数:
109
最近遇到一个kafka方面的问题,大致就是由于consumer处理业务超时,导致无法正常提交Offset,进而导致无法消费新消息的问题。下面我想从以下几个方面对此次故障排查进行复盘分析:业务背景、问题描述、排查思路、经验教训。
分类:
其他好文 时间:
2019-10-09 19:22:43
阅读次数:
1356
记录一次阿里云服务器故障排查思路 公司网络是nat 环境 问题: 思路: ...
分类:
其他好文 时间:
2019-10-09 14:03:50
阅读次数:
99
现象 排查思路 另一台服务器CPU正常,由于消息中心有部分老接口是域名调用的,网关已做负载均衡,并且pinpoint上的两台服务器gc如图,初步猜测是否是负载不均衡导致。 经运维调试nginx权重无效,证明与负载均衡无关。那么先看子线程,这种情况必定由某几个线程引起 ps -mp pid -o TH ...
分类:
其他好文 时间:
2019-09-25 15:32:31
阅读次数:
123
处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代码点,进而提供解决该问题的思路。 ...
分类:
其他好文 时间:
2019-09-20 16:55:04
阅读次数:
291
step_1:kubectlgetnode1.查看集群节点是否处于Ready状态a.如果是Ready状态,再使用kubectldescribenode<nodeName>,资源使用率b.如果是NotReady,则使用kubectlgetnode-owide查看对应的节点,然后登陆到对应节点上,查看kubelet和docker服务是否正常;step_2:kubectlgetcs1.查看集
分类:
其他好文 时间:
2019-08-29 16:30:03
阅读次数:
315
入侵排查思路 (1)- 日志分析 入侵排查思路(2)- 账号安全 入侵排查:查询特权用户(uid为0): awk -F: '$3==0{print $1}' /etc/passwd查询可以远程登录的账号信息: awk '/\$1|\$6/{print $1}' /etc/passwd禁用或删除多余可 ...
分类:
系统相关 时间:
2019-08-21 21:45:20
阅读次数:
137
排查数据库出现大量invalid connection,无法连接的问题,介绍排查思路和常见MySQL指令。 ...
分类:
数据库 时间:
2019-08-18 19:34:57
阅读次数:
98
故障:web和client无法登陆排查思路:服务器是否正常启动-->查看服务器启动日志-->查看服务器启动报错日志1.排查tomcat启动问题手动开启服务中的tomcat服务,发现开启和停止都是灰色的,无法操作,用命令杀死8080进程,就可以启动,也可以找到安装目录下bin/statup.bat,运行也可启动![](https://s1.51cto.com/images/blog/20
分类:
其他好文 时间:
2019-07-12 15:40:13
阅读次数:
154
这是Thinkphp3.2.3的一个坑~ 具体原因也没搞清楚,测试环境都是好的,线上就出问题,是因为线上debug是关闭的 具体原委特此记录: 现象:(打开DEBUG就正常了,所以界面看不到具体报错滴~) 排查思路: php-fpm_error.log也没有明显报错 nginx.access.log ...
分类:
Web程序 时间:
2019-06-28 16:35:52
阅读次数:
470