码迷,mamicode.com
首页 > 其他好文 > 详细

云计算之路-阿里云上:针对 docker swarm 故障的部署调整以及应急措施

时间:2018-03-19 13:43:00      阅读:390      评论:0      收藏:0      [点我收藏+]

标签:无法   处理   post   tps   控制台   ssh   一个   bsp   发布   

针对上周 docker swarm 集群的频繁故障(详见故障一故障二故障三),我们今天对 docker swarm 集群的部署进行了如下调整。

将 docker engine 由  “17.12.0-ce, build c97c6d6”  升级至  “17.12.1-ce, build 7390fc6” ,这是 docker 在 2 月 27 日发布的最新稳定版

~# docker -v
Docker version 17.12.1-ce, build 7390fc6

将之前的 “5 个 manager 节点 + 1 个 worker 节点” 调整为 “3 个 manager 节点 + 3 个 worker 节点”,3 个 manager 节点的阿里云服务器配置为 1 台 4 核 8 G  + 2 台 2 核 4 G ,3 个 worker 节点的配置为 3 台 4 核 8 G ,应用容器尽量部署在 worker 节点上。

使用新的部署后,昨天 18:00 左右集群又出现了宕机,当时怎么处理也无法恢复,最后实在没办法,通过阿里云控制台强制重启所有节点服务器后,竟然神奇地一切恢复正常。

在目前问题没有根本解决的情况下,我们会采取这样的应急措施:部署一个备用 docker swarm 集群,当主集群出现故障时,切换到备用集群。

另外在周末遇到一次节点服务器“死机”的情况,ssh 登录无响应,通过阿里云控制台管理终端登录也没有响应,唯有通过阿里云控制台强制重启服务器。

云计算之路-阿里云上:针对 docker swarm 故障的部署调整以及应急措施

标签:无法   处理   post   tps   控制台   ssh   一个   bsp   发布   

原文地址:https://www.cnblogs.com/cmt/p/8589687.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!