标签:运维
昨天,我经历了一次比较有风险的运维事件,因为没有出事,所以才没有叫事故。有一些经验可以分享的。在很久以前,我还是一个项目的服务经理时,跟自己老板吃饭时,老板说过一句话:经验就是教训。虽然我记住了这句话,但是在以后的工作中,逐渐的体会和实践着这句话,有机会我想出一系列的故事,总结这么多年以来的经验。
这次事件的背景如下:
所在园区需要进行电力扩容,提前一周通知到了各个园区公司,停电时长为15小时。我们自己的机房仅仅由一组UPS电池提供临时的电源方案,电池设计负载也就两个小时,而且寿命到了更换的时间了。
所以只能是关闭服务器。这个机房只是一个非标的机房,公司每次在做IT投资建设时都扣的要命,天天只知道省钱,这都是为后来运维制造巨大风险。IT部门提前两天发布了关闭服务器的通知,突然市场部提出停电期间必须要用邮件服务器,做一次重大的商务活动,而且参与这个重大商务活动的有三十个人左右。
在这个需求提出来以后,按照公司内部的企业文化,就是刀光剑影了一翻,该提供支持的部门在打太极上基本都到了一个宗师的水平。从IT上面,技术方案无非就是以下:
第一,迁移这三十人到O365,网速太慢,无法完成
第二,用云平台的共享邮箱,也能临时解决问题,但是在重要的商务活动时不方便。
第三,解决电的问题
因为看到公司对面的云基地从外面租了三台发电车,觉得应该不停电的方案可行。用半天时间走完特批,周五下午6点时发电车到位,计划周六停电时做切换,公司电工和发电车负责人都现场确认过细节,都认为没有问题,切换时间也就十分钟就够了。
周六早六点,园区正常停电,在5点45分,所有资源到位,把机房空开一断电,就开始切换了,接好线,发电车启动,然后测试电压,正常。把机房UPS和空调空开都合上了。结果,发现了报警,当时以验难判断以为是电力的相序问题,重新把线序调整了一下,问题依旧。空调的保护装置提示电力的频率不对。市电标准是220V 50HZ,现在送来的电不是这个标准,还好UPS和空调都有保护,未造成直接损失。这种排错用了30分钟。
确认问题原因,发电车人员决定把发电机拆掉,看看能否调频,他们没有测试电源频率的设备,此时我这边的压力就是是否要等,电池随时都有可能断掉,服务器意外断电硬件肯定坏,市场部门现在估计已经在工作中了,如果已中断,我们公司这一单生意肯定完了,而且以后的商誉基本都不会有了。
我把现场的负责人叫到跟前,把事情的紧急程度跟他讲清楚我们现在为什么不能关机,让他要么修好设备,要么给我换一台。当时的压力可想而知。最倒霉的是,他老板电话无人接听,只有他老板才能调动资源。当时我的状态就是叫天天不应,叫地地不灵。此时又过了一个小时左右。将近1个半小时过去了。
经过无数的电话后,紧急调用了一台发电车,预计到场时间是1小时后。此时需要做一个方案,是等,还是关闭服务器和网络设备,机房里由于空调停止,温度逐渐上升,同时服务器的噪音也越来越大了。我,电工,发电车负责人,发电车技术人员此时必须做一个决定。综合多方面因素,决定拼一把。我让电工待命,发电车人员做好所有准备,来了只需要花几分钟接线,我来把当前非关键应用全部关掉,节约电力。
然后就是等应急车到来,这一个小时,我真得不知道怎么熬过来的,看到UPS电量都快用到一个极限了,发电车到了,只用五分钟就接好线了,电工确认安全后,空开一关上,机房里所有设备都正常了。
教训是:
第一,对于初次合作的供应商,一定要提前做测试,如果周五下午发现问题,周六就不会那么狼狈。即使所有的技术人员都说了没有问题了,这根本不代表没有问题。
第二,说服公司增加IT方面的投入。
第三,机房的所有隐患都是从设计上就出错了。这是根本问题,而且改造很麻烦。
第四,供应商选择很重要,而且供应商的专业度是要经过审查的。一堆不懂的人去做决定,结果就是这样。
第五,选择在哪家公司工作也很重要,不要去给那些不专业的公司做事,一是没有人懂,另一个也没有资源支持。
没有出事是运气,但人生不能靠运气,只在踏踏实实从架构上做好设计,实施,运维,才能保平安。我经历的公司比较多,基本上管理和实际执行都是两张皮。看文档和流程都写的天花乱坠的,实际执行都是碰运气。如果哪一天,我做一家IT外包公司,公司的规模要控制在50人左右,我会尽量提高服务质量,让专业的人做专业的事。这个畅想一下,也别太当真。
标签:运维
原文地址:http://blog.51cto.com/shadingyu/2120737