标签:运行 地方 成本 SSH连接 升级 对比 解决问题 版本 解决方法
背景:最近项目为推广本地化部署环境,采用了Azure云服务,在Azure上新建了三台虚拟机,部署三节点的CDH集群。
但使用过Azure云的朋友都知道,虚拟机开启后是按时间计费的,一个小时几百、上千的都有,贵呀。
所以为了节省成本,定制了一个策略,测试机在每天晚上8点关机,次日9点开机,实现方式是使用Azure SDK for python写了一个脚本实现。
问题:
有一天上班后查看Azure上部署的CDH集群状态,发现一台主机未连接,无法ping通,无法ssh连接。
但在Azure portal界面中查看VM状态为正常运行,那就奇怪了。因为是测试环境,我们选择将有问题的节点进行了重启(也可以选择保留现场,向Azure技术支持反馈工单,但估计他们也需要重启VM进行排查)。
重启后VM正常启动,VM可以ping通,SSH正常连接,于是向Azure发起工单请求排查。
原因:
经自查和通过Azure技术支持排查后,发现虚拟机在启动时分配IP地址时出现错误:
解决方案:
问题已经找到,系虚拟机版本与Azure的某些服务不兼容造成,解决方法是对所有的虚拟机升级LIS版本。
--总结--
在有问题的VM重启恢复正常后,我们首先会想到/var/log/message中查看日志,这时可以与另外两个正常的VM中的message日志进行对比,来发现异常点。
找到异常点后,基本可以知道问题发生的原因以及如何解决问题。
云服务带给我们便利,同时也带来一些新的问题,对于有些可以预料的问题,我们需要提前做好规划,来避免云服务出现问题给我们带来更大的影响,让我们有更大的自主权。也希望各家云厂商能够越来越好,提供更稳定、更优质的服务。
End:
由于笔者的水平有限,文中难免会出现一些错误或者不准确的地方,不妥之处恳请读者批评指正。
我也会继续分享我的一些工作经验和心得,喜欢笔者的文章,右上角点一波关注,谢谢!
标签:运行 地方 成本 SSH连接 升级 对比 解决问题 版本 解决方法
原文地址:http://blog.51cto.com/5109252/2152044