引言
缓存是分布式系统中的重要组件,主要解决高并发,大数据场景下,热点数据访问的性能问题。提供高性能的数据快速访问。
本文是缓存在分布式应用第一篇文章,介绍缓存的原理,缓存的分类,缓存的设计,CDN缓存(原理,架构参考和技术实践),反向代理缓存(原理,Squid架构实践和常用代理缓存之间的比较)等。
1. 缓存系统概述
缓存是分布式系统中的重要组件,主要解决高并发,大数据场景下,热点数据访问的性能问题。提供高性能的数据快速访问。
1.1 什么是缓存
缓存是一种用于存储数据临时副本的技术或设备,其目的是在后续对相同数据的访问中,能够更快地获取数据,从而加速数据访问过程。例如,在浏览器中,当用户浏览网页后,浏览器会将一些网页内容(如图片、样式表等)存储在本地缓存中。当用户再次访问相同网页时,浏览器可以直接从缓存中读取这些内容,而不用每次都从网络上下载,大大提高了网页的加载速度。
1.1 缓存原理
- 数据存储位置 : 缓存通常位于数据源(如磁盘、数据库等)和数据消费者(如应用程序、用户等)之间。它比数据源访问速度更快,因为它是存储在内存(如计算机的内存)中的临时存储区域,内存的读写速度远远快于磁盘等存储设备。
- 数据存储策略 : 缓存会根据一定的策略来存储数据。例如,采用最近最少使用(LRU)策略,当缓存空间已满且需要添加新数据时,会将最近一段时间内最少被访问的数据从缓存中移除,以腾出空间存储新数据。
- 数据访问流程 : 当应用程序请求数据时,首先会在缓存中查找。如果数据在缓存中存在(称为缓存命中),就直接从缓存中读取数据并返回给应用程序,这个过程比从原始数据源读取数据要快得多。如果数据不在缓存中(称为缓存未命中),则会从数据源读取数据,在返回给应用程序的同时,还会将数据存储到缓存中,以便下次访问时可以快速获取。
1.2 缓存分类
缓存的分类方式有很多种,以下是一些常见的分类:
(1). 按存储层次分类
- 前端缓存(Browser Cache)
- 原理:浏览器缓存是存储在用户本地浏览器中的缓存机制。当用户访问一个网页时,浏览器会将该网页的资源(如 HTML 文件、图片、CSS 文件、JavaScript 文件等)存储在本地缓存中。下次用户访问相同网页时,浏览器会先检查缓存中的资源是否有效,如果有效则直接从缓存中读取,避免再次从网络上下载,从而提高网页加载速度。
- 应用场景:用于加速网页的访问,减少网络请求,提升用户体验。例如,用户在短时间内多次访问同一个新闻网站,浏览器缓存可以快速加载该网站的公共资源,如网站的 logo 图片、样式文件等。
- 后端缓存(Backend Cache)
- 原理:后端缓存通常位于服务器端,用于缓存应用程序的数据。它可以减轻数据库的负担,提高应用程序的性能。例如,使用 Redis 或 Memcached 作为后端缓存系统,将频繁访问的数据库查询结果缓存起来。当应用程序再次请求相同的数据时,可以直接从缓存中获取,而不是重新查询数据库。
- 应用场景:适用于需要频繁读取数据但数据更新不频繁的场景。比如电商网站中商品的详细信息查询,这些信息在短时间内不会频繁更改,通过后端缓存可以快速响应用户的请求。
- 分布式缓存(Distributed Cache)
- 原理:分布式缓存是一种跨多个服务器节点的缓存系统。它允许多个应用程序实例或服务器共享同一个缓存数据集。分布式缓存系统(如 Redis 集群、Memcached 集群)通过网络将缓存数据分布在多个服务器上,每个节点负责存储一部分数据。数据的访问通过特定的路由算法(如一致性哈希算法)来确定数据所在的节点。
- 应用场景:在大型分布式系统和高并发应用场景中非常有用。例如,大型电商平台在促销活动期间,需要处理海量的用户请求,分布式缓存可以提供快速的数据访问能力,避免数据库因高并发访问而崩溃。
(2). 按数据存储方式分类
- 内存缓存(In - Memory Cache)
- 原理:内存缓存将数据存储在计算机的内存中。由于内存的读写速度非常快,内存缓存能够提供极低延迟的数据访问。常见的内存缓存系统有 Redis 和 Memcached。这些系统将数据以键值对的形式存储在内存中,支持多种数据结构(如 Redis 支持字符串、哈希、列表、集合等)。
- 应用场景:适用于对数据访问速度要求极高的场景。例如,缓存热点数据(如热门视频网站的视频推荐列表)、会话信息(如用户登录状态)等。
- 磁盘缓存(Disk Cache)
- 原理:磁盘缓存是利用磁盘存储空间来缓存数据。它通常作为内存缓存的补充,用于存储那些不经常访问或者对访问速度要求不是极高的数据。磁盘缓存的读写速度比内存缓存慢,但存储容量更大。操作系统通常会利用磁盘缓存来提高文件读写效率。
- 应用场景:用于存储一些不经常访问但又不想频繁从原始数据源加载的数据。例如,缓存一些历史数据(如气象数据的历史记录)、备份数据等。
(3). 按缓存数据的结构分类
- 键值缓存(Key - Value Cache)
- 原理:键值缓存是最简单的缓存形式,它以键值对的形式存储数据。每个数据项都有一个唯一的键,通过键可以快速检索对应的值。Memcached 和 Redis 都支持键值缓存,且 Redis 还支持对键值设置过期时间、持久化等高级功能。
- 应用场景:适用于存储简单的数据结构,如用户的个人信息(键为用户 ID,值为用户的基本信息对象)、配置项(键为配置名称,值为配置值)等。
- 文档缓存(Document Cache)
- 原理:文档缓存将数据存储为文档的形式,通常用于存储半结构化数据(如 JSON 或 XML 格式的数据)。文档缓存系统(如 Couchbase)允许对文档中的字段进行索引和查询,提供更灵活的数据访问方式。
- 应用场景:适用于存储复杂的数据对象,如内容管理系统中的文章(包含标题、内容、作者、发布时间等字段)、用户生成的内容(如评论、帖子等)。
- 对象缓存(Object Cache)
- 原理:对象缓存是将应用程序中的对象进行序列化后存储在缓存系统中。当需要使用该对象时,再从缓存中读取并进行反序列化。这种方式可以减少对象的创建和销毁开销,提高应用程序的性能。
- 应用场景:在面向对象的编程语言开发的应用程序中比较常用。例如,缓存复杂的业务对象(如订单对象,包含订单详情、用户信息、商品信息等)。
(4). 按缓存的使用场景分类
- 内容缓存(Content Cache)
- 原理:内容缓存主要用于缓存静态内容,如网页、图片、视频等。内容分发网络(CDN)是一种典型的内容缓存系统,它通过在全球范围内部署多个缓存节点,将内容缓存到离用户最近的节点上,以提高内容的访问速度。
- 应用场景:广泛应用于网站加速、流媒体内容分发等场景。例如,大型视频网站(如 Netflix)通过 CDN 缓存视频内容,使用户可以快速访问视频资源。
- 数据缓存(Data Cache)
- 原理:数据缓存用于缓存应用程序中经常访问的数据,这些数据通常来自数据库。数据缓存系统会定期或根据一定的策略从数据库中加载数据,应用程序可以直接从缓存中读取数据,减少数据库的访问次数。
- 应用场景:适用于数据密集型的应用程序,如电商网站的商品库存信息、社交网络中的用户关系数据等。
- 计算结果缓存(Computation Cache)
- 原理:计算结果缓存用于存储计算密集型操作的结果。当相同的计算请求再次发生时,可以直接从缓存中获取结果,而不需要重新进行计算。例如,在一些科学计算或数据分析的应用程序中,缓存复杂的数学模型计算结果。
- 应用场景:适用于需要频繁进行复杂计算的场景,如金融风险模型计算、天气预测模型计算等。
1.3 缓存与数据库的区别
缓存和数据库主要有以下区别:
特性 | 缓存 | 数据库 |
---|---|---|
数据存储位置和介质 | 通常存储在内存中 | 一般存储在硬盘或磁带等非易失性存储介质中 |
数据持久性 | 大多不是持久化存储,数据可能因缓存满、过期或系统重启而丢失 | 持久化存储,即使系统重启或故障,数据仍可保存 |
数据访问速度 | 访问速度极快,通常在微秒级别 | 访问速度相对较慢,通常在毫秒级别 |
数据容量 | 受内存容量限制,容量相对较小 | 可存储海量数据,通常配备大容量磁盘阵列 |
数据一致性要求 | 一般不要求强一致性,允许一定时间内与数据库数据存在差异 | 必须保证数据的一致性和准确性 |
数据结构和复杂操作性 | 数据结构相对简单,以键值对形式存储,操作较简单 | 数据结构复杂多样,支持复杂查询、事务操作等 |
应用场景 | 用于快速获取频繁访问的数据,如网页缓存、热点数据缓存等 | 用于长期稳定存储数据,如企业业务数据、财务数据等 |
1.4 常见缓存中间件
以下是一些常见的缓存中间件:
(1). 本地缓存中间件
- Ehcache:纯Java的进程内缓存框架,易于集成到Java环境中,可作为Hibernate等ORM框架的二级缓存,提供数据持久化功能。
- Guava Cache:基于Java的本地缓存库,使用简单,通过
CacheBuilder
可方便地设置缓存的容量、过期时间等策略。 - Caffeine:高性能的本地缓存库,是Guava Cache的升级版,具有更好的性能和更低的内存占用。
(2). 分布式缓存中间件
- Redis:开源的高性能键值对缓存和存储系统,支持多种数据结构,如字符串、哈希、列表、集合、有序集合等,还支持主从复制、持久化、自动分区等高级功能,适用于多种复杂场景。
- Memcached:广泛使用的高性能分布式内存缓存系统,设计简洁,易于部署和扩展,适合快速读取大量简单键值对数据的场景,但不支持数据持久化和复杂数据结构。
- NCache:功能强大的分布式缓存解决方案,支持多种缓存机制,如本地缓存、客户端缓存、分布式缓存等,具备数据自动分片、自动复制、故障转移等特性,适用于.NET分布式缓存场景。
(3). Web缓存中间件
- Varnish:高效的HTTP加速器,主要用于缓存HTTP请求,通过缓存网页来降低后端服务器的负担,提供快速的内容交付服务,可通过VCL语言进行高度定制。
- Nginx: 用于缓存HTTP请求, Nginx 通过
proxy_cache
模块实现反向代理缓存,可设置缓存路径、缓存键等参数。适用于高并发场景,可缓存静态资源,减轻后端服务器负担。 - SQUID: 用于缓存HTTP请求, Squid 可作为正向代理和反向代理,通过配置实现反向代理缓存。支持丰富的访问控制、缓存管理、内容过滤。用于企业内部网络,缓存外部 Web 内容,提高访问效率。
以下是常见缓存中间件的对比表格:
中间件名称 | 支持的数据结构 | 持久化支持 | 分布式支持 | 性能表现 |
---|---|---|---|---|
Redis | 多种(字符串、哈希、列表、集合、有序集合等) | 支持 | 支持(分片和复制) | 高 |
Memcached | 简单键值对 | 不支持 | 支持(需第三方工具或客户端库) | 高 |
NCache | 多种 | 支持 | 支持 | 高 |
Ehcache | 支持对象 | 支持 | 支持 | 中等 |
Varnish | HTTP请求 | 不适用 | 支持 | 高 |
Nginx | HTTP请求 | 不适用 | 支持 | 高 |
在选择缓存中间件时,需综合考虑应用需求、性能要求、持久化需求等因素,以实现最佳的系统性能和可维护性。
1.5 缓存设计
缓存设计需要解决以下几个问题:
(1). 哪些数据需要缓存?
在实际应用中,并非所有数据都适合缓存,通常需要根据数据的特点和业务需求来决定哪些数据需要缓存。以下是一些常见的需要缓存的数据类型或场景:
A.频繁访问的数据
- 静态资源:如图片、CSS、JavaScript 等网页资源。这些资源在短时间内不会发生变化,且被用户频繁访问。通过缓存这些静态资源,可以大大减少从服务器获取资源的次数,提高网页加载速度。
- 热点数据:如电商网站的热门商品信息、新闻网站的头条新闻等。这些数据是用户访问频率极高的,缓存这些数据可以减轻后端数据库的负担,提高系统的响应速度。
- 用户会话信息:如用户的登录状态、购物车内容等。在用户频繁操作过程中,这些信息需要不断读取,将其缓存可以快速获取,提升用户体验。
B. 计算成本高的数据
- 复杂查询结果:一些需要进行大量计算、关联查询或数据处理才能得到的结果,如数据分析报表、推荐系统的推荐结果等。这些结果的生成往往耗时较长,将其缓存可以避免重复计算,提高系统的性能。
- 机器学习模型预测结果:对于一些实时性要求不高的机器学习模型预测结果,如用户画像、信用评分等,可以缓存起来,供后续请求直接使用。
C.数据变化不频繁的数据
- 配置信息:如系统配置、应用配置等。这些数据通常在系统启动时加载,只有在系统配置发生变化时才会更新,适合缓存。
- 字典数据:如城市列表、商品分类等。这些数据相对稳定,更新频率低,缓存后可以减少对数据库的访问。
D. 实时性要求不高的数据
- 天气预报:天气预报数据通常有一定的更新周期,如每小时更新一次。在两次更新之间,可以将天气预报数据缓存起来,供用户查询。
- 新闻资讯:对于一些非实时的新闻资讯,如科技新闻、文化新闻等,在一定时间内(如半小时或一小时)更新一次即可,中间可以缓存数据。
E. 数据量较大的数据
- 历史记录数据:如用户的浏览历史、订单历史等。这些数据量可能较大,且查询时对实时性要求不高,可以缓存部分历史记录数据,提高查询效率。
- 日志数据:对于一些不需要实时处理的日志数据,可以缓存后批量写入数据库或日志存储系统。
F. 数据的约束条件
- 数据一致性要求较低的数据:对于一些对数据一致性要求不是特别高的场景,如新闻资讯的浏览量、商品的推荐顺序等,可以缓存数据。即使缓存中的数据与数据库中的数据存在一定的时间差,也不会对业务产生重大影响。
- 数据更新频率可预测的数据:如果数据的更新频率可以预测,如每天凌晨更新一次统计数据,则可以在数据更新后及时更新缓存,保证缓存数据的时效性。
(2). 缓存的位置?
- 前端缓存:CDN缓存,反向代理缓存等
- 后端缓存:分布式缓存服务器(Redis集群服务器、Memcached服务器)
- 本地缓存:本机(内存,硬盘)
(3). 如何缓存的问题?
设置缓存过期策略
- 固定时间:比如指定缓存的时间是30分钟;
- 相对时间:比如最近10分钟内没有访问的数据;
缓存同步机制
- 实时写入(PUSH)
- 异步刷新(PUSH & PULL)
2. 前端缓存
2.1 CDN缓存
CDN主要解决将数据缓存到离用户最近的位置,一般缓存静态资源文件(页面,脚本,图片,视频,文件等)。国内网络异常复杂,跨运营商的网络访问会很慢。为了解决跨运营商或各地用户访问问题,可以在重要的城市,部署CDN应用。使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。
2.1.1 CDN原理
CDN的基本原理是广泛采用各种缓存服务器,将这些缓存服务器分布到用户访问相对集中的地区或网络中,在用户访问网站时,利用全局负载技术将用户的访问指向距离最近的工作正常的缓存服务器上,由缓存服务器直接响应用户请求。
1. 未部署CDN应用前
网络路径:
- 请求:本机网络(局域网)–> 运营商网络 --> 应用服务器机房
- 响应:应用服务器机房 --> 运营商网络 --> 本机网络(局域网)
在不考虑复杂网络的情况下,从请求到响应需要经过3个节点,6个步骤完成一次用户访问操作。
2. 部署CDN应用后
网络路径:
- 请求:本机网络(局域网)–> 运营商网络
- 响应:运营商网络 --> 本机网络(局域网)
在不考虑复杂网络的情况下,从请求到响应需要经过2个节点,2个步骤完成一次用户访问操作。与不部署CDN服务相比,减少了1个节点,4个步骤的访问。极大的提高的系统的响应速度。
2.1.2 CDN优缺点
1. 优点
- 本地Cache加速:提升访问速度,尤其含有大量图片和静态页面站点;
- 镜像服务:消除了不同运营商之间互联的瓶颈造成的影响,实现了跨运营商的网络加速,保证不同网络中的用户都能得到良好的访问质量;
- 远程加速:远程访问用户根据DNS负载均衡技术智能自动选择Cache服务器,选择最快的Cache服务器,加快远程访问的速度;
- 带宽优化:自动生成服务器的远程Mirror(镜像)cache服务器,远程用户访问时从cache服务器上读取数据,减少远程访问的带宽、分担网络流量、减轻原站点WEB服务器负载等功能。
- 集群抗攻击:广泛分布的CDN节点加上节点之间的智能冗余机制,可以有效地预防黑客入侵以及降低各种D.D.o.S攻击对网站的影响,同时保证较好的服务质量。
2. 缺点
- 动态资源缓存,需要注意实时性;
解决办法:主要缓存静态资源,动态资源建立多级缓存或准实时同步等。
- 如何保证数据的一致性和实时性需要权衡考虑。
解决办法:设置缓存失效时间;数据版本号等。
2.1.3 CDN架构参考
2.1.4 CDN技术实践
目前,中小型互联网公司,综合成本考虑,一般租用第三方CDN服务,大型互联网公司,采用自建或第三方结合的方式。比如淘宝刚开始使用第三方的,当流量很大后,第三方公司无法支撑其CDN流量,淘宝最后采用自建CDN的方式实现。
例如阿里云的CDN架构,如下图所示:
阿里云的CDN架构主要由调度系统、链路质量系统、缓存系统和支撑系统这四大系统组成。
链路质量系统
链路质量探测系统会实时监测缓存系统中的所有节点和链路的实时负载以及健康状况,并将结果反馈给调度系统,调度系统根据用户请求中携带的IP地址解析用户的运营商和区域归属,然后综合链路质量信息为用户分配一个最佳接入节点。
调度系统
支持策略中心、DNS、HTTPDNS和302调度模式。当终端用户发起访问请求时,用户的访问请求会先进行域名DNS解析,然后通过阿里云CDN的调度系统处理用户的解析请求。
CDN缓存系统
用户通过收到的最佳接入节点访问对应的缓存节点,如果节点已经缓存了用户请求的资源,会直接将资源返回给用户;如果L1(边缘节点)和L2(汇聚节点)节点都没有缓存用户请求的资源,此时会返回源站去获取资源并缓存到缓存系统,供后续用户访问,避免重复回源。分级缓存的部署架构可提高内容分发效率、降低回源带宽以及提升用户体验。
支撑服务系统
支撑服务系统包括天眼、数据智能和配置管理系统,分别具备了资源监测、数据分析和配置管理能力。
- 资源监测:天眼可以对缓存系统上用户业务运行的状态进行监测。例如对CDN加速域名的QPS、带宽、HTTP状态码等常见指标的监控。
- 数据分析:用户可以分析CDN加速域名的TOP URL、PV、UV等数据。
- 配置管理:通过配置管理系统,用户可以配置缓存文件类型、缓存时去参数缓存等缓存规则,以提升缓存系统的运作效率。
2.2. 反向代理缓存
反向代理是指在网站服务器机房部署代理服务器,实现负载均衡,数据缓存,安全控制等功能。反向代理缓存是一种性能优化技术,通过在反向代理服务器上缓存经常请求的内容,避免每次请求都向后端服务器获取数据,从而提高响应速度和降低后端负载。
2.2.1 反射代理缓存原理
反向代理位于应用服务器机房,处理所有对WEB服务器的请求。如果用户请求的页面在代理服务器上有缓冲的话,代理服务器直接将缓冲内容发送给用户。如果没有缓冲则先向WEB服务器发出请求,取回数据,本地缓存后再发送给用户。通过降低向WEB服务器的请求数,从而降低了WEB服务器的负载。
反向代理一般缓存静态资源,动态资源转发到应用服务器处理。常用的缓存应用服务器有Varnish,Ngnix,Squid。
2.2.2 SQUID反向代理示例
Squid 反向代理一般只缓存静态资源,动态程序默认不缓存。根据从 WEB 服务器返回的 HTTP 头标记来缓冲静态页面。有四个最重要 HTTP 头标记:
- Last-Modified: 告诉反向代理页面什么时间被修改
- Expires: 告诉反向代理页面什么时间应该从缓冲区中删除
- Cache-Control: 告诉反向代理页面是否应该被缓冲
- Pragma: 用来包含实现特定的指令,最常用的是 Pragma:no-cache
Squid 反向代理加速网站实例
- 通过DNS的轮询技术,将客户端的请求分发给其中一台 Squid 反向代理服务器处理;
- 如果这台 Squid 缓存了用户的请求资源,则将请求的资源直接返回给用户;
- 否则这台 Squid 将没有缓存的请求根据配置的规则发送给邻居 Squid 和后台的 WEB 服务器处理;
- 这样既减轻后台 WEB 服务器的负载,又提高整个网站的性能和安全性。
2.2.3 代理缓存比较
常用的代理缓存有Varnish,Squid,Ngnix,简单比较如下:
(1)varnish和squid是专业的cache服务,nginx需要第三方模块支持;
(2)Varnish采用内存型缓存,避免了频繁在内存、磁盘中交换文件,性能比Squid高;
(3)Varnish由于是内存cache,所以对小文件如css,js,小图片啥的支持很棒,后端的持久化缓存可以采用的是Squid或ATS;
(4)Squid功能全而大,适合于各种静态的文件缓存,一般会在前端挂一个HAProxy或nginx做负载均衡跑多个实例;
(5)Nginx采用第三方模块ncache做的缓冲,性能基本达到varnish,一般作为反向代理使用,可以实现简单的缓存。
3. 分布式缓存
CDN缓存、反向代理缓存,主要用于解决前端静态文件或用户请求资源的缓存,数据源一般为静态文件或动态生成的文件(有缓存头标识)。而分布式缓存主要指缓存用户经常访问数据的缓存,数据源为数据库。一般起到热点数据访问和减轻数据库压力的作用。
目前分布式缓存设计,在大型网站架构中是必备的架构要素。常用的中间件有Memcached、Redis等。
3.1 Memcached缓存
Memcache是一个高性能,分布式内存对象缓存系统,通过在内存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据,包括图像、视频、文件以及数据库检索的结果等。简单的说就是将数据调用到内存中,然后从内存中读取,从而大大提高读取速度。
Memcache特性:
- 物理缓存:使用物理内存作为缓存区,可独立运行在服务器上。每个进程最大2G,如果想缓存更多的数据,可以开辟更多的memcache进程(不同端口)或者使用分布式memcache进行缓存,将数据缓存到不同的物理机或者虚拟机上。
- 键值对存储:使用key-value的方式来存储数据,这是一种单索引的结构化数据组织形式,可使数据项查询时间复杂度为O(1)。
- 协议简单:基于文本行的协议,直接通过telnet在memcached服务器上可进行存取操作,简单,方便多种缓存参考此协议;
- 基于libevent高性能通信:Libevent是一套利用C开发的程序库,它将BSD系统的kqueue,Linux系统的epoll等事件处理功能封装成一个接口,与传统的select相比,提高了性能。
- 内置的内存管理方式:所有数据都保存在内存中,存取数据比硬盘快,当内存满后,通过LRU算法自动删除不使用的缓存,但没有考虑数据的容灾问题,重启服务,所有数据会丢失。
- 分布式支持:各个memcached服务器之间互不通信,各自独立存取数据,不共享任何信息。服务器并不具有分布式功能,分布式部署取决于memcache客户端。
- 缓存策略:Memcached的缓存策略是LRU(最近最少使用)到期失效策略。在memcached内存储数据项时,可以指定它在缓存的失效时间,默认为永久。当memcached服务器用完分配的内时,失效的数据被首先替换,然后也是最近未使用的数据。在LRU中,memcached使用的是一种Lazy Expiration策略,自己不会监控存入的key/vlue对是否过期,而是在获取key值时查看记录的时间戳,检查key/value对空间是否过期,这样可减轻服务器的负载。
3.1.1 Memcached原理
MemCached的工作流程如下:
(1)先检查客户端的请求数据是否在Memcached中,如有,直接把请求数据返回,不再对数据库进行任何操作;
(2)如果请求的数据不在Memcached中,就去查数据库,把从数据库中获取的数据返回给客户端,同时把数据缓存一份到memcached中(Memcached客户端不负责,需要程序实现);
(3)每次更新数据库的同时更新Memcached中的数据,保证一致性;
(4)当分配给Memcached内存空间用完之后,会使用LRU(Least Recently Used,最近最少使用)策略加上到期失效策略,失效数据首先被替换,然后再替换掉最近未使用的数据。
3.1.2 Memcached集群
Memcached 虽然称为 “ 分布式 ” 缓存服务器,但服务器端并没有 “ 分布式 ” 功能。每个服务器都是完全独立和隔离的服务。 memcached 的分布式,是由客户端程序实现的。
当向Memcached集群存入/取出key value时,memcached客户端程序根据一定的算法计算存入哪台服务器,然后再把key value值存到此服务器中。
因此,存取数据分二步走:
第一步,选择服务器;
第二步,存取数据。
分布式算法
选择服务器算法有两种,一种是根据余数来计算分布,另一种是根据散列算法来计算分布。
余数算法:
- 先求得键的整数散列值,再除以服务器台数,根据余数确定存取服务器。
- 优点:计算简单,高效;
- 缺点:在memcached服务器增加或减少时,几乎所有的缓存都会失效。
散列算法(一致性Hash):
- 先算出memcached服务器的散列值,并将其分布到0到2的32次方的圆上,然后用同样的方法算出存储数据的键的散列值并映射至圆上,最后从数据映射到的位置开始顺时针查找,将数据保存到查找到的第一个服务器上,如果超过2的32次方,依然找不到服务器,就将数据保存到第一台memcached服务器上。
如果添加了一台memcached服务器,只在圆上增加服务器的逆时针方向的第一台服务器上的键会受到影响。
一致性Hash算法:解决了余数算法增加节点命中大幅额度降低的问题,理论上,插入一个实体节点,平均会影响到:虚拟节点数/2 的节点数据的命中。
3.2 Redis缓存
Redis 是一个开源(BSD许可)的,基于内存的,多数据结构存储系统。可以用作数据库、缓存和消息中间件。 支持多种类型的数据结构,如 字符串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 与范围查询, bitmaps, hyperloglogs 和 地理空间(geospatial) 索引半径查询。
内置了复制(replication),LUA脚本(Lua scripting), LRU驱动事件(LRU eviction),事务(transactions) 和不同级别的 磁盘持久化(persistence), 并通过 Redis哨兵(Sentinel)和自动分区(Cluster)提供高可用性(high availability)。
3.2.1 Redis常用数据类型
1. String类型
- 常用命令:set,get,decr,incr,mget
- 应用场景:String是最常用的一种数据类型,与Memcache的key value存储方式类似。
- 实现方式:String在redis内部存储默认就是一个字符串,被redisObject所引用,当遇到incr,decr等操作时会转成数值型进行计算,此时redisObject的encoding字段为int。
2. Hash类型
- 常用命令:hget,hset,hgetall
- 应用场景:以存储一个用户信息对象数据为例:
- 实现方式:Hash类型对应的Value,内部实际就是一个HashMap,实际这里会有2种不同实现。
- Hash的成员比较少时Redis为了节省内存会采用类似一维数 组的方式来紧凑存储,而不会采用真正的HashMap结构,对应的value redisObject的encoding为zipmap;
- 当成员数量增大时会自动转成真正的HashMap,此时encoding为ht。
3. List类型
- 常用命令:lpush,rpush,lpop,rpop,lrange
- 应用场景:List类型的应用场景非常多,也是Redis最重要的数据结构之一,比如twitter的关注列表,粉丝列表等都可以用Redis的list结构来实现。
- 实现方式:List的实现为一个双向链表,可以支持反向查找和遍历,方便操作。不过带来了部分额外的内存开销,Redis内部的很多实现,包括发送缓冲队列等也都是用的这个数据结构。
4. Set类型
- 常用命令:sadd,spop,smembers,sunion
- 应用场景:Set类型对外提供的功能与list类似是一个列表的功能,特殊之处在于set是可以自动排重的,当你需要存储一个列表数据,又不希望出现重复数据时,set 是一个很好的选择,并且set提供了判断某个成员是否在一个set集合内的重要接口,这个也是list所不能提供的。
- 实现方式:Set类型的内部实现是一个value永远为null的HashMap,实际就是通过计算hash的方式来快速排重的,这也是set能提供判断一个成员是否在集合内的原因。
5. Sorted Set类型
- 常用命令:zadd,zrange,zrem,zcard;
- 使用场景:Sorted Set的使用场景与set类似,区别是set不是自动有序的,而sorted set可以通过用户额外提供一个优先级(score)的参数来为成员排序,并且是插入有序的,即自动排序。当你需要一个有序的并且不重复的集合列表,可以选择sorted set数据结构,比如twitter 的public timeline可以以发表时间作为score来存储,这样获取时就是自动按时间排好序的。
- 实现方式:Sorted set的内部使用HashMap和跳跃表(SkipList)来保证数据的存储和有序,HashMap里放的是成员到score的映射,而跳跃表里存放的 是所有的成员,排序依据是HashMap里存的score,使用跳跃表的结构可以获得比较高的查找效率,并且在实现上比较简单。
3.2.2 Redis集群
1. 通过KeepAlived实现的高可用方案
切换流程:
- 当Master挂了后,VIP漂移到Slave;Slave 上keepalived 通知redis 执行:slave of no one, 开始提供业务
- 当Master起来后,VIP 地址不变,Master的keepalived通知redis执行slave of slave IP host,开始作为从同步数据
- 依次类推
主从同时宕机情况:
- 非计划性,不做考虑,一般也不会存在这种问题
- 计划性重启,重启之前通过运维手段SAVE DUMP 主库数据;需要注意顺序:
1). 关闭其中一台机器上所有redis,是得master全部切到另外一台机器(多实例部署,单机上既有主又有从的情况);并关闭机器
2). 依次dump主上redis服务
3). 关闭主库
4). 启动主库,并等待数据load完毕
5). 启动从库
6). 删除DUMP文件(避免重启加载慢)
2. 使用Twemproxy实现集群方案
Twemproxy由Twitter公司开源的c版本proxy,同时支持memcached和redis,Twitter用它主要减少前端与缓存服务间网络连接数。
- Twemproxy方案的特点:快速、轻量级、减少后端Cache Server连接数、易配置、支持ketama、modula、random、常用hash分片算法等。
注:图中使用Keepalived实现高可用主备方案,解决proxy单点问题。
Twemproxy方案的优点:
- 对于客户端而言,redis集群是透明的,客户端简单,遍于动态扩容
- Proxy为单点、处理一致性hash时,集群节点可用性检测不存在脑裂问题
- 高性能,CPU密集型,而redis节点集群多CPU资源冗余,可部署在redis节点集群上,不需要额外设备
3.3 Memcached与Redis的比较
在选择缓存系统时,如果需要简单的缓存功能且对数据丢失不敏感,Memcached 是一个高效的选择;如果需要复杂的数据结构支持、数据持久化和高可用性保障,Redis 更为合适。
特性 | Memcached | Redis |
---|---|---|
数据结构 | 仅支持键值对(字符串) | 支持多种数据结构,如字符串、哈希、列表、集合、有序集合、位图等 |
持久化 | 不支持 | 支持 RDB 快照和 AOF 日志 |
线程模型 | 多线程,高并发读写性能好 | 单线程,顺序执行避免锁竞争 |
内存管理 | 预分配固定内存,基于 LRU 淘汰机制 | 动态内存分配,支持多种内存淘汰策略 |
集群模式 | 依赖客户端分片(如 Twemproxy) | 支持原生 Cluster 模式 |
适用场景 | 简单键值缓存,如会话、HTML 片段缓存 | 缓存、消息队列、实时统计等复杂场景 |
性能 | 在简单的键值操作和高并发读写场景中表现更好 | 在复杂数据操作和高并发场景中性能优异 |
4. 本地缓存
本地缓存是指应用内部的缓存,标准的分布式系统,一般有多级缓存构成。本地缓存是离应用最近的缓存,一般可以将数据缓存到硬盘或内存。
- 硬盘缓存
将数据缓存到硬盘到,读取时从硬盘读取。原理是直接读取本机文件,减少了网络传输消耗,比通过网络读取数据库速度更快。可以应用在对速度要求不是很高,但需要大量缓存存储的场景。
- 内存缓存
直接将数据存储到本机内存中,通过程序直接维护缓存对象,是访问速度最快的方式。
5. 缓存架构示例
1. 职责划分:
- CDN:存放HTML,CSS,JS等静态资源;
- 反向代理:动静分离,只缓存用户请求的静态资源;
- 分布式缓存:缓存数据库中的热点数据;
- 本地缓存:缓存应用字典等常用数据;
2. 请求过程:
- 浏览器向客户端发起请求,如果CDN有缓存则直接返回;
- 如果CDN无缓存,则访问反向代理服务器;
- 如果反向代理服务器有缓存则直接返回;
- 如果反向代理服务器无缓存或动态请求,则访问应用服务器;
- 应用服务器访问本地缓存;如果有缓存,则返回代理服务器,并缓存数据;(动态请求不缓存)
- 如果本地缓存无数据,则读取分布式缓存;并返回应用服务器;应用服务器将数据缓存到本地缓存(部分);
- 如果分布式缓存无数据,则应用程序读取数据库数据,并放入分布式缓存。