某天晚上,客户碰到了这样的问题:K8s 集群一直扩容失败,所有节点都无法正常加入集群。在经过多番折腾无解后,客户将问题反馈到我们这里,希望得到技术支持。该问题的整个排查过程比较有意思,本文对其中的排查思路及所用的方法进行了归纳整理并分享给大家,希望能够对大家在排查此类问题时有些帮助和参考。 ...
分类:
其他好文 时间:
2021-06-24 17:32:16
阅读次数:
0
1.连接问题 Cannot get a connection, pool error Timeout waiting for idle object 解决: 排查思路: 1.检查是否应用压力过大,无法获取空闲连接 查看cpu、内存 查看tomcat的连接数(netstat -natp | grep ...
分类:
其他好文 时间:
2021-05-24 05:29:42
阅读次数:
0
Spark Streaming处理流程中,遇到某些批次耗时长的问题,排查思路
分类:
其他好文 时间:
2020-11-18 13:12:54
阅读次数:
8
kubernetes部署Pod一直处于CrashLookBackOff状态,此状态会有多种问题,我的问题只是其中一种,但是排查思路大同小异。 1、在k8s的master集群上执行 kubectl get pod --all-namespaces|grep -Ev '1/1|2/2|3/3|Com' ...
分类:
Web程序 时间:
2020-10-16 10:51:57
阅读次数:
28
一、从库线程管理 1、停止线程 2、启动、停止单个线程 3、需要重新change master to的时候 4、从库关于主从的相关文件 5、查看relaylog内容 二、模拟主从复制过程中的故障 1、连接数过小问题 排查思路: 2、模拟主库binlog日志与从库对应不上问题 报错描述: 3、模拟SQ ...
分类:
数据库 时间:
2020-10-05 22:23:52
阅读次数:
38
node节点flannel网络问题导致该node上的pod与其他node节点网络不通的排查思路与解决方法一、问题发现在部署一个replicas:4的nginxdeployment之后在master节点通过curl+podIP+端口的形式测试时,发现两次访问不到,两次可以访问得到。二、问题排查1、通过pingpod的ip地址,发现node1节点的pod全都ping不通,问题很有可能就出在node1节
分类:
其他好文 时间:
2020-08-03 00:49:43
阅读次数:
307
1、常见的方法: 1)确定故障现象并初判问题影响 在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方案的制定,这依赖于运维人员需要对应用系统的整体功能有一定的熟悉程度。确认了故障现象后,才能指导运维人员初判断故障影响。 2)应急恢复 运维最基本的指标就是系统可用性,应急恢复的时效性 ...
分类:
其他好文 时间:
2020-07-24 16:49:48
阅读次数:
105
查看是否有锁现象 ## 1. 看有没有锁等待 SHOW STATUS LIKE 'innodb_row_lock%'; ## 2. 查看哪个事务在等待(被阻塞了) USE information_schema SELECT * FROM information_schema.INNODB_TRX W ...
分类:
数据库 时间:
2020-07-10 20:42:20
阅读次数:
87
死锁原因 Java发生死锁的根本原因是:在申请锁时发生了交叉闭环申请。即线程在获得了锁A并且没有释放的情况下去申请锁B,这时,另一个线程已经获得了锁B,在释放锁B之前又要先获得锁A,因此闭环发生,陷入死锁循环。 监控死锁 VisualVM监控工具有明显线程死锁提醒,也可监控到发生死锁的线程、类、代码 ...
分类:
编程语言 时间:
2020-07-05 17:44:12
阅读次数:
81
问题描述 公司做的是一个支付系统,会对接很多第三方公司。 突然有一天,有一家第三方反应收不到我们的通知消息。 排查过程&排查思路 我们登陆自己的服务器,检查程序日志,是有给第三方平台发送通知的。而且有的订单是通知成功而且第三方也成功返回了,只有极少部分第三方没有收到通知 仔细检查日志后,发现第三方说 ...
分类:
其他好文 时间:
2020-06-12 00:56:33
阅读次数:
51