标签:
吐槽
奇葩的银网中心物业又给我们停电了,我们的UPS形同虚设,所以我们的做法依然是提前关闭设备,当然Steve Feldman告诉我的是,没有必要提前关闭网络设备,可以让他们自行掉电,再自行上电。但是考虑到空调的散热会提前停止工作,机器再开着没什么好处,所以还是都提前关闭了。最令人担心的还是比较老旧的服务器,像HP DL380系列的机器,这次依然是通过先hold power button的方式关机的,来电之后press power button起机,但是有些服务没起来,还是需要有人登陆上去启动服务(比如ids那台上的smokeping服务)
时间线
1. 2015年12月28号接到停电通知,停电时间是31号0点到5点30,尼玛选的一手好时候,赶着这天早下班回家呢,当时我特别担心一上午处理不好,因为下午3点多我就要去坐火车回济南了。
2. 接到停电通知后,由IT组发邮件给全体成员,主要是告知邮件电话以及一切办公网会停用
3. 12月30日晚上,22点我们手动关闭网络设备的电源,关闭方法各异,见下面的Shutdown method
4. 12月31日早上,凌晨5点30分我来到办公室,挨个bring up,但是无奈7点又停了一次电。当然5点半我brought up之后,6点到7点之间一切都是好的,有线 电话 无线 DNS DHCP都起来了。
5. 12月31日早上,7点钟,ASA NAT问题,当时我就懵逼了,NAT不work,具体分析写在下面的收获里了。
事前
***======================下面是那天做的准备===============================***
Shutdown method
Cisco core switch -> hold power button, press again to restart
Cisco access switch -> leave it,
Juniper -> request system power-off, replug to restart
Netscaler -> shutdown -p now, press power button to restart
Firewall
6504-1 is connected to Active one
Gi2/39 cn-pek1-asa5545x-a connected 387 full 1000 10/100/1000BaseT
Gi2/40 cn-pek1-asa5545x g connected 386 full 1000 10/100/1000BaseT
6504-2 is connected to Standby one
Gi2/39 cn-pek1-asa5545x-s connected 387 full 1000 10/100/1000BaseT
Gi2/40 cn-pek1-asa5545x-s connected 386 full 1000 10/100/1000BaseT
number of APs : 49
Check the Excel table for detailed info.
CDP neighbor of 6504-[1,2]
===========================================================================
cn-pek1-6504-1>sho cd nei
Capability Codes: R - Router, T - Trans Bridge, B - Source Route Bridge
S - Switch, H - Host, I - IGMP, r - Repeater, P - Phone,
D - Remote, C - CVTA, M - Two-port Mac Relay
Device ID Local Intrfce Holdtme Capability Platform Port ID
cn-pek1-10-2960-3.cnet.com
Gig 2/3 150 S I WS-C2960- Gig 0/2
cn-pek1-10-2960-2.cnet.com
Gig 2/2 125 S I WS-C2960- Gig 0/2
cn-pek1-10-2960-1.cnet.com
Gig 2/1 168 S I WS-C2960- Gig 0/2
cn-pek1-10-2960-7.cnet.com
Gig 2/7 141 S I WS-C2960- Gig 0/2
cn-pek1-10-2960-6.cnet.com
Gig 2/6 177 S I WS-C2960- Gig 0/2
cn-pek1-10-2960-5.cnet.com
Gig 2/5 172 S I WS-C2960- Gig 0/2
cn-pek1-10-2960-4.cnet.com
Gig 2/4 164 S I WS-C2960- Gig 0/2
cn-pek1-10-2960-9.cnet.com
Gig 2/9 161 S I WS-C2960- Gig 0/1
cn-pek1-10-2960-8.cnet.com
Gig 2/8 168 S I WS-C2960- Gig 0/2
cn-pek1-APcontroller-primary
Gig 3/9 167 H AIR-CT550 Gig 0/0/1
cn-pek1-6504-2.cnet.com
Gig 2/47 173 R S I WS-C6504- Gig 2/47
cn-pek1-6504-2.cnet.com
Gig 2/46 134 R S I WS-C6504- Gig 2/46
cn-pek1-6504-2.cnet.com
Gig 2/45 129 R S I WS-C6504- Gig 2/45
cn-pek1-6504-2.cnet.com
Gig 2/48 121 R S I WS-C6504- Gig 2/48
cn-pek1-20-2960g-1.cnet.com
Gig 3/4 155 S I WS-C2960G Gig 0/24
cn-pek1-10-2960g-2.cnet.com
Gig 2/10 130 S I WS-C2960G Gig 0/21
cn-pek1-12-2960g-1.cnet.com
Gig 3/2 139 S I WS-C2960G Gig 0/24
cn-pek1-09-2960g-1.cnet.com
Gig 3/1 177 S I WS-C2960G Gig 0/21
cn-pek1-APcontroller-primary-Standby
Gig 3/10 169 H AIR-CT550 Gig 0/0/1
cn-pek1-6504-1>
===========================================================================
cn-pek1-6504-2>sho cd nei
Capability Codes: R - Router, T - Trans Bridge, B - Source Route Bridge
S - Switch, H - Host, I - IGMP, r - Repeater, P - Phone,
D - Remote, C - CVTA, M - Two-port Mac Relay
Device ID Local Intrfce Holdtme Capability Platform Port ID
cn-pek1-10-2960-3.cnet.com
Gig 2/3 149 S I WS-C2960- Gig 0/1
cn-pek1-10-2960-2.cnet.com
Gig 2/2 156 S I WS-C2960- Gig 0/1
cn-pek1-10-2960-1.cnet.com
Gig 2/1 157 S I WS-C2960- Gig 0/1
cn-pek1-10-2960-7.cnet.com
Gig 2/7 158 S I WS-C2960- Gig 0/1
cn-pek1-10-2960-6.cnet.com
Gig 2/6 131 S I WS-C2960- Gig 0/1
cn-pek1-10-2960-5.cnet.com
Gig 2/5 152 S I WS-C2960- Gig 0/1
cn-pek1-10-2960-4.cnet.com
Gig 2/4 121 S I WS-C2960- Gig 0/1
cn-pek1-10-2960-9.cnet.com
Gig 2/9 152 S I WS-C2960- Gig 0/2
cn-pek1-10-2960-8.cnet.com
Gig 2/8 142 S I WS-C2960- Gig 0/1
cn-pek1-APcontroller-primary
Gig 3/9 151 H AIR-CT550 Gig 0/0/3
cn-pek1-6504-1.cnet.com
Gig 2/48 131 R S I WS-C6504- Gig 2/48
cn-pek1-6504-1.cnet.com
Gig 2/47 163 R S I WS-C6504- Gig 2/47
cn-pek1-6504-1.cnet.com
Gig 2/46 158 R S I WS-C6504- Gig 2/46
cn-pek1-6504-1.cnet.com
Gig 2/45 153 R S I WS-C6504- Gig 2/45
cn-pek1-10-2960-11.cnet.com
Gig 2/36 129 S I WS-C2960- Gig 0/1
cn-pek1-16-2960g-1.cnet.com
Gig 3/3 147 S I WS-C2960G Gig 0/46
cn-pek1-12-2960g-1.cnet.com
Gig 3/2 168 S I WS-C2960G Gig 0/23
cn-pek1-09-2960g-1.cnet.com
Gig 3/1 124 S I WS-C2960G Gig 0/22
cn-pek1-APcontroller-primary-Standby
Gig 3/10 153 H AIR-CT550 Gig 0/0/3
cn-pek1-6504-2>
===========================================================================
OSPF neighbor
cn-pek1-6504-1>sho ip os neighbor
Neighbor ID Pri State Dead Time Address Interface
10.25.253.11 0 FULL/ - 00:00:31 118.67.127.2 Port-channel2
118.67.115.245 1 FULL/BDR 00:00:31 118.67.115.245 Vlan385
172.22.22.43 1 FULL/DROTHER 00:00:33 118.67.115.244 Vlan385
10.19.88.101 1 FULL/DROTHER 00:00:39 10.19.88.101 Vlan373
10.19.88.102 1 FULL/BDR 00:00:30 10.19.88.102 Vlan373
172.22.22.43 128 FULL/DROTHER 00:00:33 10.19.88.4 Vlan373
cn-pek1-6504-1>
cn-pek1-6504-2>sho ip os nei
cn-pek1-6504-2>sho ip os neighbor
Neighbor ID Pri State Dead Time Address Interface
10.25.253.12 0 FULL/ - 00:00:36 118.67.127.4 Port-channel2
118.67.115.245 1 FULL/BDR 00:00:30 118.67.115.245 Vlan385
172.22.22.44 1 FULL/DR 00:00:30 118.67.115.243 Vlan385
10.19.88.101 1 2WAY/DROTHER 00:00:38 10.19.88.101 Vlan373
10.19.88.102 1 FULL/BDR 00:00:30 10.19.88.102 Vlan373
172.22.22.44 128 FULL/DR 00:00:39 10.19.88.3 Vlan373
cn-pek1-6504-2>
Access switch
Check the Excel table
Concern
Special line to HKG
dc01 DL380 G4, dc02 DL385 G2, cn-pek1-dns1.cnet.com.cn DL380 G4, cn-pek1-10-gateway.cnet.com.cn DL380 G4
***==========================以上是那天做的准备=========================***
事后
比较幸运的是,香港专线的光纤设备,也就是中国移动放在这里的这个设备,断电之后也是完整的起机了,几台关键服务器DNS DHCP也都完整起机了。
不幸运的是:
power back之后,第一时间可能并不稳定,因为这个时候还没有大规模用电,server room的设备还没有完全起机,据爱卡孙鹏说,server room的所有设备同时上电会产生问题,会跳闸,很显然这样的unexpected power cycle对设备是很不好的。
还有一点,大楼竖井里的电闸可能也会跳,例如我们的10层在早上7点就又跳了一次,这次直接影响了我们的MX104路由器和WLC和防火墙。据马杰说,这次跳闸是跳了其中一路电的闸,也就是,补充一个最基础的知识,每个server room都是有两路电的,每个双电设备的两个电源都应该分别接到不同的两路电上,以保证高可用,但是之前我们要求的根本不严格,导致其中一路电挂了之后MX104等设备就没电了。
最大收获
终于再操蛋的事儿还是有收获的,这次的收获就是ASA主备切换的时候,造成的ARP cache问题,其实想想还是不应该犯这个错误,应该第一时间想到ARP的,ASA升级instruction里有提到啊,但是我和Feldman第一时间都没想到,Feldman的wild guess还是很萌的,他说会不会somehow老的ASA5510被接到网络里了,当然不是这个原因,老的5510已经下架断电了,但是老爷子这样猜的想象力还是超群。
下面说正事儿,扯跑偏了,正事儿就是,特么的正好好的,7点钟,正打算下楼买吃的,发现DNS最先不work了,注意!第一反应是DNS不work了!真的是很有趣的事,第一现象的确就是DNS不work了, 我当时就以为“哦?DNS的问题,解析解不出来”,这时候就开始有点放松,“呵呵这是sysadmin的事儿,不关我事儿”,于是我开始试着验证,填上我们自己的公网DNS 118.67.114.9,这个时候能解析了,“哈哈 happy”,但是一看,“卧槽,怎么ping不通,显示的是timeout,我ping的淘宝,淘宝没禁ping啊!卧了个大槽,咋了这是”,然后那我就traceroute吧,结果一看,特么的到了网关之后就没下文了,那么这个时候可能有两种情况,一个是网关自己出问题了,比如没学到taobao的路由(话说不是很确定如果没学到淘宝的路由的话,PC端ping的时候是该返回个啥,恐怕得再看详解去了),但是我show ip route很显然是学到了。这个时候还好大脑还没完全秀逗,话说那个时候真是多亏了好几个深呼吸呢,没吃饭容易慌,几个深呼吸之后,开始意识到可能是内网出去到公网的问题,那么如何验证呢,在6504上ping 淘宝 source一次公网VLAN的SVI 能通,但是source 内网VLAN SVI就不通,所以我开始确定是NAT的问题,这个时候我登陆了ASA,先检查了和6504的interface连接,都up没问题,再检查CPU Memory也一切正常,看NAT有转换槽位,clear conn clear xlate都无济于事,force failover 也无济于事,好吧到底咋回事,这个时候我真的懵逼了,于是我求助了Feldman
Feldman的意思是,从外头回来的包,到了6504之后,6504对outside口的arp是老的,所以没能交给正确的ASA
其实clear arp 很值得一试,但是我特么的还没试呢,就特么的又停电了,这次意外断电让WLC和MX104和ASA都断电了。这次断电是竖井跳闸了,电恢复之后,arp的问题已经消失了,于是就一切太平了。
现象:
NAT 不工作的时候,其实并非真的不工作,而是从外面返回的流量没有正确的找到ASA outside口的mac地址,这个时候有个现象就是inside outside 流量都降得很低,现在从rabbit上抓不出准确的图了,因为那个时间很短暂。当时虽然还没到大家上班的时间,但是对比当时的端口流量也远低于平时同一时间点的流量,所以这个时候基本就断定了ASA和6504之间的互动出现了问题。
心得:
1. 断电时大家都不愿意看到的事情,但是即使是这类最不乐意干的事儿,依然能有知识可以挖掘,我深深的对我没有第一时间意识到clear arp感到shamed.
2. 基础设施建设对于网络是十分重要的,即使不是网络操作人员去实施基础设施的建设,但是它可能在某些方面需要我们的监督,网络人员对于基础的hosting也要有个rudimentary的了解。
标签:
原文地址:http://www.cnblogs.com/Vooom/p/5134475.html