https://coolshell.cn/articles/18654.html 总结在前面: 1.kill -9杀死docker进程,系统一定是要遍历所有的docker子进程来一个一个发退出信号的,这个过程可能会非常的长,结果客户没等到遍历完直接Ctrl+C结束了kill,导致一些docker的进 ...
分类:
Web程序 时间:
2018-12-31 15:42:47
阅读次数:
255
【作者】 王栋:携程技术保障中心数据库专家,对数据库疑难问题的排查和数据库自动化智能化运维工具的开发有强烈的兴趣。 【问题描述】 最近我们有多台MongoDB的服务器CentOS 7.1系统发生了crash,会不定期的自动重启。 【排查思路】 1、碰到linux系统crash的问题,我们首先想到的是 ...
分类:
数据库 时间:
2018-12-30 11:40:40
阅读次数:
255
昨天快下班的时候,开发部门同事说,自己的YUM工具卸载了,我当时真的很震惊,幸亏不是生产环境,我问她为啥要删yum,哪个高人指点的,她指了指旁边要离职的大哥, 我讽刺了几句,这个大哥还有脸骂别人sb,我真的佩服。 不多说,聊下恢复的经过: yum 被删的原因,系统是centos6.6系统,默认pyt ...
分类:
其他好文 时间:
2018-12-11 12:59:10
阅读次数:
165
前提,对官网问题的一个翻译 Troubleshooting Guide排障手册 1、Failures(失败) If Kolla fails, often it is caused by a CTRL-C during the deployment process or a problem in th ...
分类:
其他好文 时间:
2018-11-21 16:03:20
阅读次数:
414
Embedded Packet Capture (EPC)是一个很好的抓包工具,在排障的时候,需要在线抓包的情况下,是一个非常好的选择。 EPC在IOS和IOS-XE都是支持,不过,不同平台下有版本的限制。 1、IOS:需要在12.4(20)T及之后的版本支持 2、IOS-XE:需要在15.2(4) ...
分类:
其他好文 时间:
2018-11-04 19:36:58
阅读次数:
359
一、缩小问题范围1.有多少用户受到影响2.是否所有受影响的用户使用相同的方法访问exchange3.用户想要做什么4.其他用户执行相同的任务是否正常5.所有用户在一个数据库吗6.都在同一个站点吗7.什么时间发生和故障发生的频率二、使用基本的排障工具1.无论出现什么问题首先要查看事件查看器2.使用TEST命令{例如:1.获取测试命令:helptest-*所有test开头的命令2.get-server
分类:
其他好文 时间:
2018-10-15 12:04:33
阅读次数:
215
【作者】 张延俊:携程技术保障中心资深DBA,对数据库架构和疑难问题分析排查有浓厚的兴趣。 寿向晨:携程技术保障中心高级DBA,主要负责携程Redis及DB的运维工作,在自动化运维,流程化及监控排障等方面有较多的实践经验,喜欢深入分析问题,提高团队运维效率。 【问题描述】 生产环境有一个 ...
分类:
其他好文 时间:
2018-10-12 16:06:33
阅读次数:
186
一、ssh登录不到服务器报错 (1)从下面的报错可以看出是由于内存oom了,所以登录到不上服务器 ...
分类:
其他好文 时间:
2018-09-22 19:56:44
阅读次数:
148
日志文件包含了关于系统中发生的事件的有用信息,在排障过程中或者系统性能分析时经常被用到。对于忙碌的服务器,日志文件大小会增长极快,服务器会很快消耗磁盘空间,这成了个问题。除此之外,处理一个单个的庞大日志文件也常常是件十分棘手的事。 logrotate是个十分有用的工具,它可以自动对日志进行截断(或轮 ...
分类:
系统相关 时间:
2018-08-28 01:05:26
阅读次数:
218
公司希望实现以下功能:生产部1(PC1)和品质部(PC2)可以访问DMZ区域的Web服务器(ping通即可).2生产部(PC1)和品质部(PC2)可以访问互联网上的服务器Serv3(ping通即可).3互联网客户端PC3可以通过地址20296.150访问公司DMZ区域的Web服务器。拓扑图先ping一下发现ping不通,再使用tracert跟踪路径看一下发现前面的是通的R4有问题呢,display
分类:
其他好文 时间:
2018-07-17 16:39:49
阅读次数:
249