常见的网站服务器架构有哪些？

时间：2017-07-20 15:20:17 阅读：198 评论：0 收藏：0 [点我收藏+]

作者：xlzd
链接：https://www.zhihu.com/question/20657269/answer/101795180
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1. 初始阶段的网站架构

一般来讲，大型网站都是从小型网站发展而来，一开始的架构都比较简单，随着业务复杂和用户量的激增，才开始做很多架构上的改进。当它还是小型网站的时候，没有太多访客，一般来讲只需要一台服务器就够了，这时应用程序、数据库、文件等所有资源都在一台服务器上，网站架构如下图所示：

2. 应用服务和数据服务分离

随着网站业务的发展和用户量的增加，一台服务器就无法再满足需求了。大量用户访问导致访问速度越来越慢，而逐渐增加的数据也会导致存储空间不足。这时就需要将应用和数据分离，应用和数据分离后整个网站使用 3 台服务器：应用服务器、文件服务器和数据库服务器。这 3 台服务器对硬件资源的要求各不相同：

应用服务器业务逻辑，需要强大的CPU

数据库服务器对磁盘读写操作很多，需要更快的磁盘和更大的内存

文件服务器存储用户上传的文件，因此需要更大的磁盘空间

此时，网站系统的架构如下图所示：

3. 使用缓存改善网站性能

随着用户再增加，网站又会一次面临挑战：数据库压力太大导致整站访问效率再此下降，用户体验受到影响。一个网站，往往 80% 的业务访问集中在 20% 的数据上，比如微博请求量最多的肯定是那些千万级粉丝的大 V 的微博，而几乎没有人关注的你的首页，除了自己想起来之外根本不会被打开。既然大部分业务访问集中在一小部分数据上，那就把这一小部分数据先提前缓存在内存中，而不是每次都去数据库读取，这样就可以减少数据库的访问压力，从而提高整个网站的访问速度。

网站使用的缓存一般分为缓存到应用服务器或者缓存在专门的分布式缓存服务器。缓存到应用服务器自己的访问速度快很多，但是受自身内存限制，往往不太适用。远程分布式缓存使用一个集群专门负责缓存服务，当内存不够还可以轻松得动态扩容。

4. 使用应用服务器集群改善网站的并发处理能力

使用缓存后，数据访问压力得到了缓解，但是单一应用服务器能够处理的请求连接有限，在网站访问高峰期，应用服务器就成了整个网站的效率瓶颈。使用分布式集群是网站解决高并发、海量数据问题的常用手段。当一台服务器的处理能力和存储空间不足时，不要尝试去更换更强大的服务器，对大型网站而言，多么强大的服务器，都满足不了网站持续增长的业务需求。这种情况下，更恰当的做法是增加一台服务器分担原有服务器的访问及存储压力。对网站架构而言，只要能通过增加一台服务器的方式改善负载压力，就可以以同样的方式持续增加服务器不断改善系统性能，从而实现系统的可伸缩性。应用服务器实现集群是网站可伸缩架构设计中较为简单成熟的一种，如下图所示：

通过负载均衡调度服务器，可以将来自用户浏览器的访问请求分发到应用服务器集群中的任何一台服务器上，如果有更多用户，就在集群中加入更多的应用服务器，使应用服务器的压力不再成为整个网站的瓶颈。

5. 数据库读写分离

网站在使用缓存后，使对大部分数据读操作访问都可以不通过数据库就能完成，但是仍有一部分读操作（缓存访问不命中、缓存过期）和全部的写操作都需要访问数据库，在网站的用户达到一定规模后，数据库因为负载压力过高而成为网站的瓶颈。目前大部分的主流数据库都提供主从热备功能，通过配置两台数据库主从关系，可以将一台数据库服务器的数据更新同步到另一台服务器上。网站利用数据库的这一功能，实现数据库读写分离，从而改善数据库负载压力。如下图所示：

应用服务器在写数据的时候，访问主数据库，主数据库通过主从复制机制将数据更新同步到从数据库，这样当应用服务器读数据的时候，就可以通过从数据库获得数据。为了便于应用程序访问读写分离后的数据库，通常在应用服务器端使用专门的数据访问模块，使数据库读写分离对应用透明。

6. 使用反向代理和 CDN 加速网站响应

随着网站业务不断发展，用户规模越来越大，由于中国复杂的网络环境，不同地区的用户访问网站时，速度差别也极大。有研究表明，网站访问延迟和用户流失率正相关，网站访问越慢，用户越容易失去耐心而离开。为了提供更好的用户体验，留住用户，网站需要加速网站访问速度。主要手段有使用 CDN 和反向代理。如下图所示：

7. 使用分布式文件系统和分布式数据库系统

任何强大的单一服务器都满足不了大型网站持续增长的业务需求。数据库经过读写分离后，从一台服务器拆分成两台服务器，但是随着网站业务的发展依然不能满足需求，这时需要使用分布式数据库。文件系统也一样，需要使用分布式文件系统。如下图所示：

分布式数据库是网站数据库拆分的最后手段，只有在单表数据规模非常庞大的时候才使用。不到不得已时，网站更常用的数据库拆分手段是业务分库，将不同业务的数据部署在不同的物理服务器上。

8. 使用 NoSQL 和搜索引擎

随着网站业务越来越复杂，对数据存储和检索的需求也越来越复杂，网站需要采用一些非关系数据库技术如 NoSQL 和非数据库查询技术如搜索引擎。如下图所示：

NoSQL 和搜索引擎都是源自互联网的技术手段，对可伸缩的分布式特性具有更好的支持。应用服务器则通过一个统一数据访问模块访问各种数据，减轻应用程序管理诸多数据源的麻烦。

9. 业务拆分

大型网站为了应对日益复杂的业务场景，通过使用分而治之的手段将整个网站业务分成不同的产品线。如大型购物交易网站都会将首页、商铺、订单、买家、卖家等拆分成不同的产品线，分归不同的业务团队负责。

具体到技术上，也会根据产品线划分，将一个网站拆分成许多不同的应用，每个应用独立部署。应用之间可以通过一个超链接建立关系（在首页上的导航链接每个都指向不同的应用地址），也可以通过消息队列进行数据分发，当然最多的还是通过访问同一个数据存储系统来构成一个关联的完整系统，如下图所示：

10. 分布式服务

随着业务拆分越来越小，存储系统越来越庞大，应用系统的整体复杂度呈指数级增加，部署维护越来越困难。由于所有应用要和所有数据库系统连接，在数万台服务器规模的网站中，这些连接的数目是服务器规模的平方，导致数据库连接资源不足，拒绝服务。

既然每一个应用系统都需要执行许多相同的业务操作，比如用户管理、商品管理等，那么可以将这些共用的业务提取出来，独立部署。由这些可复用的业务连接数据库，提供共用业务服务，而应用系统只需要管理用户界面，通过分布式服务调用共用业务服务完成具体业务操作。如下图所示：

大型网站的架构演化到这里，基本上大多数的技术问题都可以得以解决了。

编辑于 2016-09-13

2013/04/18 更新

[只是大框架介绍，实际使用中的不容易注意的细节太多了，需要经验的积累，才能运用娴熟]

以下的架构都是在假设已经优化过linux内核的情况下进行

初级篇：（单机模式）

假设配置：（Dual core 2.0GHz,4GB ram,SSD）

基础框架：apache(PHP) + Mysql / IIS + MSSQL
（最基础框架，处理一般访问请求）

进阶1：替换Apache为Nginx，并在数据库前加上cache层【数据库的速度是最大的瓶颈】
Nginx(PHP) + Memcache + Mysql
（此时已经具备处理小型访问量的能力）

进阶2：随着访问量的上涨，最先面临的问题就来了：CGI无法匹配上Nginx的高IO性能，这时候可以通过写扩展来替代脚本程序来提升性能，C扩展是个好办法，但是大家更喜欢用简单的脚本语言完成任务，Taobao团队开源了一个Nginx_lua模块，可以用lua写Nginx扩展，这时候可处理的并发已经超越进阶1 一个档次了。
Nginx(nginx_lua or C) + Memcache + Mysql
（此时处理个同时在线三四千人没有问题了）

进阶3：随着用户的增多，Mysql的写入速度成了又一大瓶颈，读取有memcache做缓存，但写入是直接面对Mysql，性能受到了很大阻碍，这时候，要在Nginx和Mysql中间加入一层写缓存，队列系统就出场了,就以RabbitMQ为例，所有写入操作全部丢到这只兔子的胃里面，然后屁股后面写个接应程序，一条条的拉出来再写入mysql。而RabbitMQ的写入效率是Mysql的N倍，此时架构的处理能力又上一阶层。
|----write------>RabbitMQ--------
Nginx（lua or c）----- |--------->Mysql
|----read------>Memcache--------

(此时的并发吞吐能力已经可以处理万人左右在线)

中级篇：（分而治之）

此时我们在单机优化上已经算是达到极限，接下来就要集群来显示作用了。

数据库篇： 数据库总是在整个环节中是吞吐能力最弱的，最常见的方法就是sharding。
sharding可以按多种方法来分，没有定式，看情况。可以按用户ID区段分，按读写分等等，可用参考软件：mysql proxy（工作原理类似lvs）

缓存篇：memcache一般采用的是构建memcache pool，将缓存分散到多台memcache节点上，如何将缓存数据均匀分散在各节点，一般采用将各节点顺序编号，然后hash取余对应到各个节点上去。这样可以做到比较均匀的分散，但是有一个致命点就是，如果节点数增加或减少，将会带来几乎80%的数据迁移，解决方案我们在高级篇再提。

WEB服务器篇： web服务器集群的建设，最常见的就是lvs方式(memcache pool同样可以如此组建)，lvs的核心就是调度节点，调度节点负责将流量通过算法分散到各个节点上，因调度所耗资源很少，所以可以产生很高的吞吐率，后台节点数量可以任意增删，但此法弊病就是如果调度节点挂了，则整个集群都挂了，解决方案我们在高级篇提。
方法2:参见 HAProxy - The Reliable, High Performance TCP/HTTP Load Balancer

高级篇：（高可用性+高可扩展性的集群）

单点调度故障解决：
集群的好处显而易见，但是有一个弊端就是单节点进行调度，如果节点出现故障，则整个集群全部都无法服务，对此的解决方案，我们使用keepalived来解决。Keepalived for Linux
keepalived是基于VRRP协议（VRRP协议介绍）的，请一定先了解VRRP协议后再进行配置。
keepalived可以把多台设备虚拟出一个IP，并自动在故障节点与备用节点之间实现failover切换。这样我们配置两台货多台lvs调度节点，然后配置好keepalived就可以做到lvs调度节点出现故障后，自动切换到备用调度节点。（同样适用于mysql）

memcache集群扩展解决：
memcache因为我们一般采用的都是hash后除以节点数取余，然后分配到对应节点上，如果节点数出现变化，以前的缓存数据将基本都不能命中。
解决方法：consistent hashing 简介：一致性哈希

consistent hashing大概的思路就是，把hash后的值保证在 0 ~ (2^32)-1 的数值上，然后把这一连串数字对应映射到一个想象的圆上。技术分享

把要存储的各个值hash后，放到圆上，如图
技术分享

然后把cache节点也用同样的hash方法，映射到圆上，然后每个刚才hash过的value顺时针寻找离自己最近的节点，这个节点就是存储它的节点。
技术分享

为了提高存储的平衡性，算法还可以加入虚拟节点的概念，即每个实际cache节点，会在圆上对应N个虚拟的节点，这样可以提高算法的命中率，更加平衡。

consistent hashing原理：Consistent hashing and random trees

完结。
另：以上图片来自互联网，未找到原创者，故未标注来源。
欢迎署名转载。

编辑于 2014-05-07

系统架构演化历程-初始阶段架构

初始阶段的小型系统应用程序、数据库、文件等所有的资源都在一台服务器上通俗称为LAMP

特征：
应用程序、数据库、文件等所有的资源都在一台服务器上。

描述：
通常服务器操作系统使用linux，应用程序使用PHP开发，然后部署在Apache上，数据库使用Mysql，汇集各种免费开源软件以及一台廉价服务器就可以开始系统的发展之路了。

系统架构演化历程-应用服务和数据服务分离

好景不长，发现随着系统访问量的再度增加，webserver机器的压力在高峰期会上升到比较高，这个时候开始考虑增加一台webserver

特征：
应用程序、数据库、文件分别部署在独立的资源上。

描述：
数据量增加，单台服务器性能及存储空间不足，需要将应用和数据分离，并发处理能力和数据存储空间得到了很大改善。

系统架构演化历程-使用缓存改善性能

特征：
数据库中访问较集中的一小部分数据存储在缓存服务器中，减少数据库的访问次数，降低数据库的访问压力。

描述：
系统访问特点遵循二八定律，即80%的业务访问集中在20%的数据上。
缓存分为本地缓存和远程分布式缓存，本地缓存访问速度更快但缓存数据量有限，同时存在与应用程序争用内存的情况。

系统架构演化历程-使用应用服务器集群

在做完分库分表这些工作后，数据库上的压力已经降到比较低了，又开始过着每天看着访问量暴增的幸福生活了，突然有一天，发现系统的访问又开始有变慢的趋势了，这个时候首先查看数据库，压力一切正常，之后查看webserver，发现apache阻塞了很多的请求，而应用服务器对每个请求也是比较快的，看来是请求数太高导致需要排队等待，响应速度变慢

特征：
多台服务器通过负载均衡同时向外部提供服务，解决单台服务器处理能力和存储空间上限的问题。

描述：
使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源，提升系统的并发处理能力，使得服务器的负载压力不再成为整个系统的瓶颈。

系统架构演化历程-数据库读写分离

享受了一段时间的系统访问量高速增长的幸福后，发现系统又开始变慢了，这次又是什么状况呢，经过查找，发现数据库写入、更新的这些操作的部分数据库连接的资源竞争非常激烈，导致了系统变慢

特征：
多台服务器通过负载均衡同时向外部提供服务，解决单台服务器处理能力和存储空间上限的问题。

描述：
使用集群是系统解决高并发、海量数据问题的常用手段。通过向集群中追加资源，使得服务器的负载压力不在成为整个系统的瓶颈。

系统架构演化历程-反向代理和CDN加速

特征：
采用CDN和反向代理加快系统的访问速度。

描述：
为了应付复杂的网络环境和不同地区用户的访问，通过CDN和反向代理加快用户访问的速度，同时减轻后端服务器的负载压力。CDN与反向代理的基本原理都是缓存。

系统架构演化历程-分布式文件系统和分布式数据库

随着系统的不断运行，数据量开始大幅度增长，这个时候发现分库后查询仍然会有些慢，于是按照分库的思想开始做分表的工作

特征：
数据库采用分布式数据库，文件系统采用分布式文件系统。

描述：
任何强大的单一服务器都满足不了大型系统持续增长的业务需求，数据库读写分离随着业务的发展最终也将无法满足需求，需要使用分布式数据库及分布式文件系统来支撑。
分布式数据库是系统数据库拆分的最后方法，只有在单表数据规模非常庞大的时候才使用，更常用的数据库拆分手段是业务分库，将不同的业务数据库部署在不同的物理服务器上。

系统架构演化历程-使用NoSQL和搜索引擎

特征：
系统引入NoSQL数据库及搜索引擎。

描述：
随着业务越来越复杂，对数据存储和检索的需求也越来越复杂，系统需要采用一些非关系型数据库如NoSQL和分数据库查询技术如搜索引擎。应用服务器通过统一数据访问模块访问各种数据，减轻应用程序管理诸多数据源的麻烦。

系统架构演化历程-业务拆分

特征：
系统上按照业务进行拆分改造，应用服务器按照业务区分进行分别部署。

描述：
为了应对日益复杂的业务场景，通常使用分而治之的手段将整个系统业务分成不同的产品线，应用之间通过超链接建立关系，也可以通过消息队列进行数据分发，当然更多的还是通过访问同一个数据存储系统来构成一个关联的完整系统。

纵向拆分：
将一个大应用拆分为多个小应用，如果新业务较为独立，那么就直接将其设计部署为一个独立的Web应用系统

纵向拆分相对较为简单，通过梳理业务，将较少相关的业务剥离即可。

横向拆分：将复用的业务拆分出来，独立部署为分布式服务，新增业务只需要调用这些分布式服务

横向拆分需要识别可复用的业务，设计服务接口，规范服务依赖关系。

系统架构演化历程-分布式服务

特征：
公共的应用模块被提取出来，部署在分布式服务器上供应用服务器调用。

描述：
随着业务越拆越小，应用系统整体复杂程度呈指数级上升，由于所有应用要和所有数据库系统连接，最终导致数据库连接资源不足，拒绝服务。

编辑于 2014-10-30

这个问题之宽泛已经跨越银河系了_(:з」∠)_
哥哥我只能从初级到高级一点点解释了~~~~
技术分享

圈子里有一个伟人说过一句话：
亿万级的架构是逐步演化出来的，傻缺才会上来就直接照着亿万级的来搭(′?`) ...（没错这个伟人就是我），所以这里只是解释下不同量级下的架构形式，具体要看业务规模和体量。

补一个，中小型网站推荐的技术选型LAMP ( linux+apache+mysql+php )。
大型网站的架构技术则可以灵活选择。

新生儿：
最初的网站一般只是个demo，老板拿去给朋友们看看，恩，小伙子网站做的不错，给你加工资∠( ? 」∠)＿，这个时期资源成本和时间成本第一，一般程序，数据库，文件都放在一台服务器，如下图：

这个时期可以说不存在太多架构的概念，apache/ IIS + MYSQL/MSSQL + PHP/JAVA/NET 等选型都可以，具体看公司的技术合伙人的方向，技术合伙人来确定方案和选型即可。

1周岁：
度过了前期的磨合，业务量开始稳步上升之后就建议开始做分离的工作了，可以根据服务器的用途不同，选用不同的配置安排：

假设业务情况涉及到的文件会比较多，建议可以做多台文件服务器对文件进行储存，比如电商类的商品文描图片及主图，多域名，多服务器储存。
即便是业务初期，也建议至少有一台热备服务器，不需要太高的配置，实时对业务数据库进行备份即可。

2周岁：
一般到了这个阶段之后，为了减轻数据库压力防止锁死，以及提高访问速度，可以开始考虑对核心业务做分布式缓存处理了。
一般来讲，业务初期可以考虑使用一些成熟的缓存引擎，比如resin等，将搜索，商品详情，CMS等页面基于此做缓存处理。
另外就是现在CDN服务的费用目前来讲成本要比以往低很多了，所以这个阶段可以考虑购买CDN的服务了：

5周岁：
如果进入这个阶段，那么首先恭喜你，开始走上正轨了<(￣▽￣)>
一般到了这个阶段，随着访问量逐渐增加，即便有缓存的存在，数据库仍旧会有很大的瓶颈，尤其是电商类网站高并发下单的场景，或者知乎这类一堆人给我点赞刷评论的情况（虽然并没有╮(╯_╰)╭，一般初步改善数据库压力的方案就是做读写分离，然后进一步的操作就是分库分表。

另外一点就是，考虑到业务量极大，为了防止出现线上事故影响服务，另外就是分担网站入口的请求，因此需要部署负载均衡服务器。因为网站是一辆需要一直跑的汽车，不能停车换轮，负载均衡的作用之一就是保证每次修轮胎的时候，车子仍然在跑：