前菜--大型网站架构演变历程

前菜:

        大型网站架构演变历程

        初始阶段

               应用程序、数据库、文件等所有资源在一台服务器上。典型架构:Linux+Apache+Mysql+PHP

        

                                    (LAMP)

         应用服务和数据服务分离

               随着网站业务的发展,一台服务器逐渐不能满足需求:越来越多的用户访问导致性能越来越差,越来越多的数据导致存储空间不足,这是就需要将应用数据分离。这三台服务器对硬件资源的要求各不相同,应用服务器要处理大量业务逻辑,因此需要更快更强大的CPU,数据库服务器需要磁盘检索和数据缓存,因此需要更大的硬盘和内存,文件服务器需要存储大量用户上传的文件,因此需要更大的硬盘。

                (应用服务和数据服务分离架构图)

**          使用缓存改善网站性能:**

                 网站访问特点和现实世界的财富分配一样遵循二八定律:80%的业务访问集中在20%的数据上,例如淘宝买家浏览的商品集中在少部分成交数多,评价良好的商品上;百度搜索关键词集中在少部分热门词汇上。

                 网站使用的缓存分为两种:缓存在应用服务器上的本地缓存和缓存在专门的分布式缓存服务器的远程缓存

本地缓存的速度更快一些,但是受应用服务器内存限制,其缓存数量有限,而且会出现与应用程序争用内存的情况,

远程分布式缓存可以使用集群的方式,部署大内存的服务器作为专门的缓存服务器,可以在理论上做到不受内存容器限制的缓存服务。

**          使用应用服务器集群改善网站并发处理的能力**

                 使用集群是网站解决高并发、海量数据问题的常用手段。通过使用应用服务器集群,改善负载压力,实现系统的可伸缩性。通过负载均衡调度服务器,可将来自用户浏览器的访问请求分发到应用服务器集群中的任何一台服务器。当有更多的用户时,在集群中加入更多的应用服务器即可。当一台服务器的处理能力、存储空间不足时,不要企图去更换更强大的服务器,对于答应网站而言,不管多么强大的服务器,都满足不了网站持续增长的业务需求,这种情况下更恰当的做法是增加一台服务器分担缘由服务器的访问及存储压力。

           数据库读写分离

                   网站在使用缓存后,是绝大部分数据读操作访问都可以不通过数据库就能完成,但是仍有一部分读操作(缓存访问不命中、缓存过期)和全部的写操作需要访问数据库,在网站规模达到 一定规模后,数据库因负载压力过高而成为网站的瓶颈。目前大部分的主流数据库都提供主从热备的功能,通过配置两台数据库主从关系,可以将一台数据库服务器的数据更新同步到另一台服务器上。网站利用数据库的这一功能,实现数据库读写分离,从而改善数据库负载压力。

          使用反向代理和CDN加速网站响应

**          **     使用网站业务不断发展,用户规模越来越大,由于中国复杂的网络环境,不同地区的用户访问网站时,速度差别也极大。使用CDN和反向代理的目的都是早返回数据给用户。一方面加快用户访问速度,另一方面也减轻后端服务器的负载压力。CDN和反向代理的基本原理都是缓存,区别在于CDN部署在网络提供商的机房,使用户在请求网站服务时,可以从距离自己最近的网络提供商机房提取数据;而反向代理则部署在网站的中心机房,当用户请求到达中心机房后,首先访问的服务器是反向代理服务器,如果反向代理服务器缓存着用户请求的资源,就将其直接返回给用户。** 
**

**           使用分布式文件系统和分布式数据库系统**

                  分布式数据库是网站数据库拆分的最后手段,只有在单表数据规模非常庞大时才使用。网站最常使用的数据库拆分手段是业务分库,将不同业务的数据库部署在不同物理服务器上。

            业务拆分

**                  ** 大型网站为了应付日益复杂的业务场景,通过使用分而治之的手段将整个网站业务分为不同的产品线,如大型电商网站会将首页、商铺、订单、买家、卖家等拆分成不同的产品线,分归不同的业务团队负责。将一个网站拆分成不同的应用,每个应用独立部署维护。应用之间可以通过超链接建立联系,也可以通过消息队列进行数据并发,也可通过同一个数据库系统构建一个关联的完整系统。

          使用NoSQL和搜索引擎

                 随着网站业务越来越复杂,对数据存储和检索的需求也越来越复杂,网站需求采用一些非数据库技术如NoSQL和非数据库查询技术如搜索引擎。源自互联网的技术手段,对可伸缩的分布式特性具有更好的支持。应用服务器则通过一个统一的数据模块访问各种数据,减轻应用程序管理诸多数据的麻烦。

          分布式服务

                 随着业务拆分越来越小,存储系统越来越庞大,应用系统的整体复杂度呈指数级增加,部署维护越来越难。由于所有应用要和所有数据库系统连接,在数万台服务器规模的网站中,这些连接的数目是服务器规模的平方,导致数据库连接资源不足,拒绝服务。各个应用系统需要执行很多相同的业务操作,比如用户管理、商品管理等。可以将这些共用业务提取出来,独立部署。应用系统只需要通过调用共用业务服务完成具体业务操作。

代码交流 2021