从主机的层面来看,Docker Swarm 管理的是 Docker Host 集群。所以先来讨论一个重要的概念 - 集群化(Clustering)。
服务器集群由一组网络上相互连接的服务器组成,它们一起协同工作。一个集群和一堆服务器最显著的区别在于:
集群能够像 单个 系统那样工作,同时提供高可用、负载均衡和并行处理。
如果我们部署应用和服务时选择的是多个独立的服务器而非集群,资源的整体利用率则很难达到最优,因为我们无法提前知道如何分布这些应用才能达到资源利用的最大化。而且,应用使用资源的趋势是波动的,早上某些服务可能需要大量的内存,而下午使用量就降下来了。提前指定应用应该运行在哪个服务器上会丧失业务的弹性,当某个服务器宕机了,我们不得不手工将受影响的应用迁移到其他服务器上。
实现集群化后我们的思维方式就必须改变了:不再考虑一个一个的服务器,而是将集群看做是一个整体。
部署应用时,我们只考虑需要多少内存和 CPU,而不是考虑会使用那台服务器的内存和 CPU。我们不应该关心应用会被部署在哪里,我们关心的是运行这个应用需要哪些资源,然后将它部署到集群,集群管理程序(比如 Docker Swarm)会搞定这些细节。
集群整体容量的调整是通过往集群中添加和删除主机节点实现的。但不管做怎样的操作,集群始终还是一个整体。
Docker v1.12 是一个非常重要的版本,Docker 重新实现了集群的编排方式。在此之前,提供集群功能的 Docker Swarm 是一个单独的软件,而且依赖外部数据库(比如 Consul、etcd 或 Zookeeper)。
从 v1.12 开始,Docker Swarm 的功能已经完全与 Docker Engine 集成,要管理集群,只需要启动 Swarm Mode。安装好 Docker,Swarm 就已经在那里了,服务发现也在那里了(不需要安装 Consul 等外部数据库)。
swarm 是运行 Docker Engine 的多个主机组成的集群。
从 v1.12 开始,集群管理和编排功能已经集成进 Docker Engine。当 Docker Engine 初始化了一个 swarm 或者加入到一个存在的 swarm 时,它就启动了 swarm mode。
没启动 swarm mode 时,Docker 执行的是容器命令;运行 swarm mode 后,Docker 增加了编排 service 的能力。
Docker 允许在同一个 Docker 主机上既运行 swarm service,又运行单独的容器。
swarm 中的每个 Docker Engine 都是一个 node,有两种类型的 node:manager 和 worker。
为了向 swarm 中部署应用,我们需要在 manager node 上执行部署命令,manager node 会将部署任务拆解并分配给一个或多个 worker node 完成部署。
manager node 负责执行编排和集群管理工作,保持并维护 swarm 处于期望的状态。swarm 中如果有多个 manager node,它们会自动协商并选举出一个 leader 执行编排任务。
woker node 接受并执行由 manager node 派发的任务。默认配置下 manager node 同时也是一个 worker node,不过可以将其配置成 manager-only node,让其专职负责编排和集群管理工作。
work node 会定期向 manager node 报告自己的状态和它正在执行的任务的状态,这样 manager 就可以维护整个集群的状态。
service 定义了 worker node 上要执行的任务。swarm 的主要编排任务就是保证 service 处于期望的状态下。
举一个 service 的例子:在 swarm 中启动一个 http 服务,使用的镜像是 httpd:latest,副本数为 3。
manager node 负责创建这个 service,经过分析知道需要启动 3 个 httpd 容器,根据当前各 worker node 的状态将运行容器的任务分配下去,比如 worker1 上运行两个容器,worker2 上运行一个容器。
运行了一段时间,worker2 突然宕机了,manager 监控到这个故障,于是立即在 worker3 上启动了一个新的 httpd 容器。
这样就保证了 service 处于期望的三个副本状态。
所有节点的 Docker 版本均不低于 v1.12,我们是最新版的 v18.04,我们的实验环境 node 的操作系统为 Ubuntu 16.04,当然其他 Linux 也是可以的。
swarm-manager:192.168.1.200
swarm-worker1:192.168.1.201
swarm-worker1:192.168.1.203
在 swarm-manager 上执行如下命令创建 swarm,使用命令docker swarm init --advertise-addr 192.168.1.200
。
[root@master ~]# docker swarm init --advertise-addr 192.168.1.200
Swarm initialized: current node (udbgr7vn9x5gntpqbj8m82x7l) is now a manager.
To add a worker to this swarm, run the following command:
docker swarm join --token SWMTKN-1-22q5qlm1mxbilt504ghcf0ug9gsn9a40szbhiohyh9kqiayyku-a8crg1xr8vab1vwrh7kmsy3kw 192.168.1.200:2377
To add a manager to this swarm, run ‘docker swarm join-token manager‘ and follow the instructions.
从结果输出我们可以看出 manager 已经初始化完成,swarm-manager 成为 manager node,可以看到添加 worker node 和 manager node 的执行指令。
--advertise-addr:指定与其他 node 通信的地址。
执行 docker node ls
查看当前 swarm 的 node,目前只有一个 manager。
[root@master ~]# docker node ls
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION
udbgr7vn9x5gntpqbj8m82x7l * master Ready Active Leader 18.04.0-ce
如果当时没有记录下 docker swarm init
提示的添加 worker 的完整命令,可以通过docker swarm join-token worker
查看。
复制前面的 docker swarm join
命令,在 swarm-worker1 和 swarm-worker2 上执行,将它们添加到 swarm 中。
但是出现如下问题:
这是因为我们在之前配置多主机网络的时候,添加的配置,我们现在需要取消掉这两个参数。
--cluster-advertise:是用来指定集群与其他node的通信地址的。
--cluster-store:是我之前做网络实验的时候配置了etcd集群的通信地址用的。
去掉之后,重启docker,host1 和 host2 即可添加了。
root@host2:~# docker swarm join > --token SWMTKN-1-22q5qlm1mxbilt504ghcf0ug9gsn9a40szbhiohyh9kqiayyku-a8crg1xr8vab1vwrh7kmsy3kw > 192.168.1.200:2377
This node joined a swarm as a worker.
docker node ls
可以看到两个 worker node 已经添加进来了。
[root@master ~]# docker node ls
ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION
c1scfpzw4s9hx1ykiggzs5qym host1 Ready Active 18.04.0-ce
6cwk70xzafhfwn1x3replywn7 host2 Ready Active 18.04.0-ce
udbgr7vn9x5gntpqbj8m82x7l * master Ready Active Leader 18.04.0-ce
至此,三节点的 swarm 集群就已经搭建好了,操作还是相当简单的。
我们创建好了 Swarm 集群, 现在部署一个运行 httpd 镜像的 service,执行如下命令:
[root@master ~]# docker service create --name web_server httpd
gjy6az3urqsbktichzoz6vpdh
overall progress: 1 out of 1 tasks
1/1: running [==================================================>]
verify: Service converged
通过 docker service ls
可以查看当前 swarm 中的 service。
[root@master ~]# docker service ls
ID NAME MODE REPLICAS IMAGE PORTS
gjy6az3urqsb web_server replicated 1/1 httpd:latest
REPLICAS 显示当前副本信息,1/1 的意思是 web_server 这个 service 期望的容器副本数量为 1,目前已经启动的副本数量为 1。也就是当前 service 已经部署完成。
命令 docker service ps
可以查看 service 每个副本的状态。
[root@master ~]# docker service ps gjy6az3urqsb
ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS
b86hi4ivf855 web_server.1 httpd:latest master Running Running 3 minutes ago
我们可以看到 service 被分配到了 master 上面。
前面部署了只有一个副本的 Service,不过对于 web 服务,我们通常会运行多个实例。这样可以负载均衡,同时也能提供高可用。
swarm 要实现这个目标非常简单,增加 service 的副本数就可以了。在 swarm-manager 上执行如下命令:
[root@master ~]# docker service scale web_server=5
web_server scaled to 5
overall progress: 5 out of 5 tasks
1/5: running [==================================================>]
2/5: running [==================================================>]
3/5: running [==================================================>]
4/5: running [==================================================>]
5/5: running [==================================================>]
verify: Service converged
副本数增加到 5,通过 docker service ls
和 docker service ps web_server
查看副本的详细信息。
我们可以看到 manager 上面运行了两个副本,默认配置下 manager node 也是 worker node,所以 swarm-manager 上也运行了副本。如果不希望在 manager 上运行 service,可以执行如下命令:
docker node update --availability drain master
我们可以看到 master 上面的副本已经转移了。
前面我们的场景是 scale up,我们还可以 scale down,减少副本数,运行下面的命令:
[root@master ~]# docker service scale web_server=3
web_server scaled to 3
overall progress: 3 out of 3 tasks
1/3: running [==================================================>]
2/3:
3/3: running [==================================================>]
verify: Service converged
我们可以看到目前 host1 上面运行了一个副本,host2 上面运行了两个副本。
原文地址:http://blog.51cto.com/wzlinux/2113553