码迷,mamicode.com
首页 > 其他好文 > 详细

2015年2月13日服务器无法访问事故记录以及经验总结

时间:2015-02-14 12:21:49      阅读:210      评论:0      收藏:0      [点我收藏+]

标签:



计划2015年每天写一篇文章

提问请移步


如果您不想看完整过程的话,那么直接看经验总结,转发留存吧!
事故主要问题
手工修改过IP设置,因此使用图形界面修改将导致出错,后果就是路由表错误
机房相关经验
  • 需要关注机房的允许维护的时间,特别是公众假期
  • 需要准备好详尽的交通路线,例如这个机房出租车司机可能更熟悉原来的名称:松下电视机厂
  • 需要关注机房的门禁管理,身份证是一定要带的,之前的机房还有需要提前自制工卡的情况
  • 需要关注机房的内部门禁管理,如果需要打电话才能出分区的,就需要在分区中测试手机信号的电量
  • 机房管理方式不同,这个机房禁止在服务器上贴IP标签,因此需要自己贴标签或者其他明显标志
  • 机房的键盘和显示器正常,鼠标是坏的,如果需要进入Linux图形界面,或者Windows的话,养成自带鼠标的习惯
  • 相关资料最好提前下载到笔记本电脑或平板电脑随身带过去,以便于现场查询,机房现场上网并不方便。
详细过程
服务器最近迁机房,然后访问很不稳定,排除了机房的网络原因后,判断是服务器故障,因此需要去机房现场维护。
本人是一名全栈工程师Full Stack Developer,技能包括:服务器运维,后端软件开发,前端软件开发,产品设计。最近写产品设计的文章比较多,这里说明一下,免得让很多好友以为我改行了。
事故的现象是:ping不通,ssh失败,网站无法访问。因为之前遇到过类似的情况,所以基本上判断是路由表出错。插一句:当我开始做产品设计的时候,很多产品设计师都说产品设计工作的血泪经历,这时候,我只能说,那你是没见到运维工作有多惨!产品设计再惨也是没上线之前,而运维事故都是上线之后,所有的人都停下手里的工作等着你解决问题,所以每一个经验上的判断差不多都是这样的血泪经历换来的。
接下来说说机房,之前的机房在河北,提供KVM支持,KVM是Keyboard Video Mouse的缩写,也就是可以通过网络虚拟连接键盘、鼠标、显示器。现在的机房在北京,东北五环,没有提供这些支持,交通也方便。如果把服务器放在外地,就一定要问清是否方便的提供KVM,有的机房不提供,维护一次的交通费用就超过了两地机房费用的差额了,所以不要为了省几百元就放在外地,特别是生产主力服务器,一旦事故,跑过去就要半天,带来的损失比一年的费用都搞,得不偿失,而且外地交通不便,去了可能当天就需要住在那边了,而且有些机房的附近还没有方便的生活配套措施。之前工作中距离最近的时候是从西二旗的写字楼到西二旗的机房。不过现在机房越建越大,这种在写字楼或者写字楼小区中的机房越来越少了,所以距离是选择机房的主要因素之一。
去机房前需要问清楚允许维护的时间,例如现在处于春节假期,从今天起(2月14日)就禁止现场维护了,因此昨天下午是节前最后的维护期限,否则又需要等到春节后了。
即使在北京,也需要注意交通,虽然人工维护不需要带设备,但是机房的位置一般交通不是特别方便,例如这个机房在酒仙桥附近,我就按照地址打车去,结果司机没有听过这个园区,后来走进了才知道这个地方是以前的松下电视机厂,老司机只知道这个地名。当然了新司机可能既不知道新的名字,也不知道原来的松下电视机厂。机房所在园区很大,需要车开进去。
每个机房的门禁管理方式不同,应提前问好,这个机房只查验登记过的身份证,之前有机房既要查验身份证,也需要查验工卡,临时维护就需要提前准备好自制工卡。
每个机房的内部管理不同,这个机房的分区门进出都需要工作人员带领,长时间维护就需要问好出门的联系方式并测试手机的信号,否则关在机房里面出不来就真的麻烦了。之前也有机房只有进门需要带领,可以自己出。
进了分区后,找到服务器也要看机房的管理措施。之前的管理都是在服务器上贴IP标签,这个机房禁止贴,因此上服务器时应准备好足够明显的标识,特别是可能不同的人员维护的情况。
然后向机房管理员索取外设,因为是linux命令行所以只需要键盘显示器即可,因为大部分维护都是这种情况,所以这两个设备应该都是好的。如果需要进入linux图形界面,或者是windows的话,可能会遇到鼠标坏的情况,这时就需要向机房索取鼠标,当然最好自带一个鼠标。
然后登录顺利,这就放心了,开始检查,相关的资料最好自带笔记本电脑或者平板电脑,都离线保存好,这样在现场查询方便,因为虽然机房有方便的网络接入,但是不一定自带设备能方便接入,因为至少需要有空闲iP吧,所以不要习惯上的想上网查资料。如果一定需要上网,可能就需要手机了,手机信号不一定好,而且手机做热点时,电脑可能会当成wifi什么流量都跑。
因为和之前的情况类似,直接定位为路由表出错,查询ip配置发现是手工配置后,再次使用图形化的配置界面导致的出错,修改后重新启动网络服务恢复正常,重新启动电脑恢复正常。
最后打电话通知机房管理员带领出门。

计划2015年每天写一篇文章

提问请移步


2015年2月13日服务器无法访问事故记录以及经验总结

标签:

原文地址:http://blog.csdn.net/hu_zhenghui/article/details/43816715

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!