使用缓存降低数据库并发读写方案探索

文章目录

  • 前言
  • 缓存设计思想
    • 缓存划分
    • 缓存应用时机
  • 客户端缓存
    • 浏览器缓存
    • 网关或代理服务器缓存
    • CDN
    • PCDN
  • 服务端缓存
    • 本地缓存
      • 本地缓存实现
        • Java堆缓存
        • memcached/ecache
        • caffeine
        • ORM框架一级/二级缓存
    • 分布式缓存
      • 分布式缓存优缺点
      • 分布式缓存实现
      • 分布式缓存实施过程可能遇到问题
        • 分布式缓存数据一致性问题
        • 缓存穿透
        • 缓存击穿
        • 缓存雪崩

前言

随着系统的并发量增加,数据库的并发读写最终将成为整个提供的瓶颈,甚至压垮整个数据库,导致系统卡死等严重问题。通过缓存是缓解数据库压力的重要手段,通过缓存把绝大多数请求在读写数据库前拦截掉,大大降低数据库压力。同时缓存也是网站加速数据访问的重要手段。

缓存设计思想

缓存设计最核心的原则就是让数据离用户更近。优秀的缓存设计直接影响到系统的高并发性能和响应速度,甚至影响客户体验。缓存是改善软件应用性能的第一手段。缓存有三个作用范围:

  • 事务、
  • 应用、
  • 集群

缓存划分

缓存按照存放位置不同可以分为客户端缓存和服务端缓存。
缓存分层
客户端缓存:

  • 浏览器缓存
  • 网关及代理服务器缓存
  • CDN

服务器缓存:

  • 本地缓存:
  • 分布式缓存:
  • 数据库缓存:

缓存应用时机

一个好的缓存设计方案需要综合考虑缓存的存储、使用时机、优缺点、以及分布式高并发下缓存一致性、缓存命中、缓存击穿/雪崩等问题。

使用缓存有两个前提条件,一是数据访问热点不均,某些数据应该被放在缓存中;二是数据在某个时间段内有效,不会很快过期。

客户端缓存

客户端缓存通常指web前端缓存,可以分为:浏览器缓存和代理服务器缓存。是目前网站前端加速的主要方式,其实现基本方式是:将制定的网站资源(整体页面、静态文件(js、css、图片)等)周期性缓存起来,缓存时间可以从几秒到几天不等,极大减少了网站应用服务器和数据库负荷。

浏览器缓存

浏览器缓存是最靠近客户的缓存机制,当开启浏览器缓存后,客户访问同一个页面将不从服务器下载页面,也是从浏览器本地缓存目录读取页面,然后在浏览器中展示。对于不常变化资源可以使用强制缓存策略。浏览器缓存更新问题解决:可以在资源的引用地址(路径)后面增加hash、版本号等动态字符,从而达到更新资源引用URL目的,让之前的缓存强制失效(PS:其实并未立即失效,而是不在使用)。

网关或代理服务器缓存

将网页缓存到代理服务器上,多个用户访问同一个页面时,将直接从代理服务器把页面传送给用户。常见实现如,Ngnix反向代理缓存。使用反向代理服务器缓存实现简单,通常通过简单配置便可以实现,而不需要外增加代码开发。反向代理服务器缓存适合实时性要求不高或者经常不变的页面,如果门户首页、商品详情等页面。在生产级别网站,用户对网站的数据请求访问时,最先访问到的就是反向代理服务器,因此通过反向代理服务器的静态资源无需继续访问应用服务器便可返回给用户。

CDN

CDN是内容分发网络,其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输得更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。其目的是使用户可就近取得所需内容,解决 Internet网络拥挤的状况,提高用户访问网站的响应速度。如电商网站、视频网站、门户网站等会将用户访问量大的热点内存缓存在CDN。
CDN是网站提供跨区域服务优化网站响应速度、改善客户体验的重要手段。

PCDN

PCDN 是以 P2P 技术为基础,通过挖掘利用边缘网络海量碎片化闲置资源而构建的低成本、高品质内容分发网络服务。许多云盘、视频播放厂商经常使用该技术来进行内容分发。该手段非常好用,不过许多非法厂商在不告知个人用户的情况下白嫖用户带宽,给用户带来损失。

服务端缓存

在服务端编程中,缓存主要是将数据库中数据加载到内存中,之后对该数据的读写都是在内存中完成,减少对数据库的访问,是解决高并发场景数据库并发读写瓶颈的主要手段之一。同时基于内存的读写处理速度高于磁盘I/O,缓存也是提高服务响应速度和性能重要手段。
根据缓存是否与应用在同一进程,可以将缓存分为本地缓存和分布式缓存:

  • 本地缓存:应用同一进程内存空间缓存数据,数据读写都在同一进程。
  • 分布式缓存:独立部署的进程,通常与应用进行部署在不同机器,缓存的读写需要通过网络来完成数据的传输。

本地缓存

本地缓存优缺点:

  • 访问速度快,但无法缓存大量数据:本地缓存不需要跨网络传输,性能更好,但是由于本地缓存使用应用进程的内存空间,不能进行大数据存储。
  • 集群数据更新问题:本地缓存只支持本地进程应用访问,其他进程应用无法访问,因此需要额外的机制来保证数据的一致性,实现复杂度高且容易出错。比如通过redis或zookeeper实现分布式同步。
  • 数据随应用进程重启而丢失。

适用场景
本地缓存适用于缓存只读数据,如字典、统计类数据,以及进程独立数据,如本地长连接服务。

本地缓存实现

Java堆缓存

使用Java堆内存来缓存数据。没有对象的序列化和反序列化,是最快的缓存。在编程中常用HashMap和ConcurrentHashMap来实现本地缓存。Java堆缓存应该避免大数据量缓存(可能导致GC停顿时间过长),同时可以使用软引用/弱引用来缓存对象,可以使当内存不足时,强制回收这部分对象,释放内存。Java堆内存一般用于缓存较热的数据。

memcached/ecache

ecache是基于java的开源高效的、进程内缓存解决方案。ecache轻量、简单,被广泛应用于其他ORM框架数据二级缓存的底层实现(如Hinernate)。
memcached和ecache实现原理类似,基于K-V将数据缓存到内存,memcached支持多线程操作。相比ecache,memcached更加灵活。

caffeine

Caffeine是基于Java 的高性能缓存库,可提供接近最佳的命中率。Caffeine与ConcurrentMap类似,但是Caffeine与ConcurrentMap最根本的区别是,ConcurrentMap会保留添加到其中的所有元素,直到将其明确删除为止,而Caffeine能自动的回收存储的元素。
通过caffeine基准测试,可以看到caffeine在读写方面明显优与其他框架,在缓存命中率上Caffeine也不同于Guava,采用了更为优秀的Window TinyLfu算法,该算法是在LRU的基础上改进的版本。

ORM框架一级/二级缓存

许多ORM本身带缓存功能,比如Mybatis、JPA、Hibernate都支持一级缓存和二级缓存。一级缓存是默认开启的,其中Mybatis是针对namespace、JPA是针对与entityManager、Hibernate针对单Session。ORM框架缓存对于小型单体应该还是可以使用,不过对于大型生产级尤其是使用容器化部署分布式微服务场景建议关闭ORM框架缓存,单纯使用ORM框架就好。

分布式缓存

分布式缓存也叫进程外缓存,通常是独立于应用部署,通过网络进行缓存读写的数据传输。

分布式缓存优缺点

  • 支持大量数据存储,不受应用进行重启影响:分布式缓存是独立部署的进程,拥有独立的内存空间,并且一般以集群的方式拓展,故而可以进行大数据储存。
  • 数据集中存储,保证数据一致性:当应用采用集群部署时,集群每个节点通过统一的分布式缓存服务进行数据的读写操作,不存在本地缓存中数据更新问题,保证不同节点应用进行的数据一致性问题。
  • 数据读写分离、高性能、高可用:分布式缓存一般支持数据副本机制,可以实现读写分离,可以解决高并发场景中数据读写性能问题。并且由于在多节点缓存冗余数据,提高了存储数据的可用性,避免某个节点宕机导致数据不可用。
  • 数据基于网络传输,性能低于本地缓存。

分布式缓存实现

目前项目中用到的分布式缓存主要还是Redis、memcached。Redis因其高性能和高可用性,常被用于业务缓存,有效地减少数据库读取次数和压力。Memcached则因其简单高效,常用于需要高并发读写操作的场景。选择合适的分布式缓存技术需要根据具体的应用场景、数据类型、性能要求以及成本等因素综合考虑。

分布式缓存实施过程可能遇到问题

分布式缓存数据一致性问题

我们经常说到的分布式缓存一致性问题主要是数据库和缓存的读写一致性问题。 我们在项目中解决该问题主要还是采用最终一致性解决方案。首先给缓存设置过期时间是保证缓存最终一致性解决方案,其次所有数据的写操作以数据库为准,对缓存尽最大努力。

缓存更新策略:
先更新数据库再失效缓存

  • 失效:应用先从缓存获取数据,如果没有从数据库读取,成功后放入缓存。
  • 命中:应用从缓存读取数据,命中后返回
  • 更新:先更新数据库,然后失效缓存(延时双删)
缓存穿透

缓存穿透是指key对应的数据源不存在,导致每次针对key的请求都无法从存储层获取数据并写入到缓存,从而每次请求都落到数据库,失去了缓存意义。流量大时可能就拖垮了DB。

解决方案

  • 方案一:对于查询返回为空的数据,仍存储到缓存(需要设置缓存过期时间尽可能短)
  • 方案二:使用布隆过滤器,将可能存在的数据hash到足够大bitmap中,一个一定不存在的数据可以通过布隆过滤器拦截掉。

不过实际项目上还是较少使用布隆过滤器解决缓存穿透,因为布隆过滤器一旦创建便无法删除元素,当某个key已经存在数据源时无法直接从布隆过滤器删除key,要更新key需要重建整个布隆过滤器。布隆过滤器本身应用场景还是url去重、垃圾邮件过滤、黑白名单、敏感词等更多。

缓存击穿

缓存击穿主要出现在高并发的热点数据访问场景。导致缓存击穿原因主要是同一时间发生消除读写(删),导致并发下缓存失效。或者是并发读取缓存时,恰巧达到缓存失效还来不及从数据库读取并写入缓存。

解决方案

  1. 比较常见的方法是使用使用互斥锁(mutex)机制,当缓存失效时,不是立即去load DB,而是先执行set mutex(比如redis的setnx),如果操作成功,则load DB并写入缓存,如果操作失败则重试get缓存。
  2. 另外可以对某些静态热点数据使用永不过期策略或者长期有效策略。
缓存雪崩

大范围设置缓存相同的过期时间,如果一些应用初始加载缓存,采用并发写策略(多线程),导致了某一时间缓存全部失效,请求全部转发到DB,DB瞬时压力过大雪崩。高并发应用的缓存雪崩对于底层系统冲击非常可怕。缓存雪崩主要还是代码设计不合理导致,例如批量写入数据库并缓存的场景,在批量写入循环外层设置一个固定缓存时间,这样就会导致批量写入的数据缓存会在同一时点过期。

解决方案

  • 考虑加锁或者队列方式写缓存,避免缓存过期时间一致
  • 在设置缓存是在原有缓存失效时间基础加上一个随机值,降低过期时间的重复率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/344649.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二分【1】二分查找框架 查找指定元素

目录 二分查找 基本思想 几种情况汇总 一。严格递增序列 1.查找本身 2.查找第一个大于等于自己的 3.查找第一个大于自己的 4.严格递减序列 二。有重复元素 1.取其中第一个出现的 2.取其中最后一个出现的 二分查找 基本思想 几种情况汇总 一。严格递增序列 1.查找本身…

3D Gaussian Splatting for Real-Time Radiance Field Rendering

辐射场方法最近在基于多张照片或视频进行新视角合成方面取得了革命性进展。然而,实现高视觉质量仍然需要耗时且计算成本高的神经网络,而最近的快速方法不可避免地在速度和质量之间进行了权衡。对于无界和完整的场景(而不是孤立的物体&#xf…

【讯为Linux驱动开发】5.并发与竞争

并发:一个CPU在一个时间片只能执行一个任务,切换速度很快。 并行:双核CPU,真正的同时执行两个任务 并行就是并发的理想情况,统称并发。 【问】Linux在什么情况下产生并发? 1.中断中修改公共资源 2.抢占…

2024年电子工程与自动化技术国际会议(ICEEAT 2024)

2024 International Conference on Electronic Engineering and Automation Technology 【1】大会信息 会议简称:ICEEAT 2024 大会地点:中国西安 审稿通知:投稿后2-3日内通知 【2】会议简介 2024年电子工程与自动化技术国际会议是聚焦电子…

关于音乐播放器与系统功能联动功能梳理

主要实现功能: 一、通知栏播放显示和控制 二、系统下拉栏中播放模块显示同步 三、与其他播放器状态同步:本应用播放时暂停其他应用播放,进入其他应用播放时,暂停本应用的后台播放 通知栏播放的显示和控制: 通过Not…

操作系统总结

进程和线程的区别 本质区别: 进程是资源调度以及分配的基本单位。线程是 CPU 调度的基本单位。 所属关系:一个线程属于一个进程,一个进程可以拥有多个线程。地址空间: 进程有独立的虚拟地址空间。线程没有独立的虚拟地址空间&…

linux shell实现打印国际象棋棋盘

chess.sh #!/bin/bashfor i in {1..8} dofor j in {1..8}dosum$[ij]if [ $[sum%2] -eq 0 ];thenecho -ne "\033[46m \033[0m"elseecho -ne "\033[47m \033[0m"fidoneecho done验证:

【Java】解决Java报错:ConcurrentModificationException

文章目录 引言1. 错误详解2. 常见的出错场景2.1 遍历过程中修改集合2.2 使用 Iterator 进行删除操作 3. 解决方案3.1 使用 Iterator 的 remove 方法3.2 使用 CopyOnWriteArrayList3.3 使用 synchronized 块 4. 预防措施4.1 使用线程安全的集合类4.2 使用合适的遍历和修改方法4.…

pikachu靶场全流程

目录​​​​​​​ 暴力破解: 1.基于表单的暴力破解: 2.验证码绕过(on server): 3.验证码绕过(on client): token防爆破: XSS: 1.反射型xss(get): 2.反射性xss(post): 3.存…

目录穿越漏洞CVE-2018-7171复现 又学到一招小技巧!!!!

还是半夜睡不着,打开靶机开始操作。今天看了文件下载和目录穿越漏洞想结合以及防御方法。半夜来进行操作一波。复现一下漏洞,这个网上的文章页比较的少!!! 开始操作起来!!! 进入到页…

Docker搭建可道云

Docker搭建可道云(存储) 文章目录 Docker搭建可道云(存储)介绍资源列表基础环境一、安装Docker二、配置Docker加速器三、搭建可道云私有云盘3.1、编写Dockerfile3.2、上传资源到指定目录3.3、查看目录下所有资源 四、构建镜像五、…

SpringBoot整合SpringSecurit(二)通过token进行访问

在文章:SpringBoot整合SpringSecurit(一)实现ajax的登录、退出、权限校验-CSDN博客 里面,使用的session的方式进行保存用户信息的,这一篇文章就是使用token的方式。 在其上进行的改造,可以先看SpringBoot…

11-数组与指针深入理解——题型理解

11-数组与指针深入理解——题型理解 文章目录 11-数组与指针深入理解——题型理解一、理解题1二、理解题二三、理解题三四、理解题四五、理解题五六、理解题六 一、理解题1 #include <stdio.h>int main(void) {int (*p)[5] NULL; // 定义一个指向 拥有5个整型数据的数组…

使用 TinyEngine 低代码引擎实现三方物料集成

本文由体验技术团队 TinyEngine 项目成员炽凌创作&#xff0c;欢迎大家实操体验&#xff0c;本体验内容基于 TinyEngine 低代码引擎提供的环境&#xff0c;介绍了如何通过 TinyEngine 低代码引擎实现三方物料集成&#xff0c;帮助开发者快速开发。 知识背景 1.1 TinyEngine 低…

读书笔记-《软件定义安全》之二:SDN/NFV环境中的安全问题

第2章 SDN/NFV环境中的安全问题 1.架构安全 SDN强调了控制平面的集中化&#xff0c;从架构上颠覆了原有的网络管理&#xff0c;所以SDN的架构安全就是首先要解决的问题。例如&#xff0c;SDN实现中网络控制器相关的安全问题。 1.1 SDN架构的安全综述 从网络安全的角度&…

Spring Boot整合WebSocket和Redis实现直播间在线人数统计功能

&#x1f604; 19年之后由于某些原因断更了三年&#xff0c;23年重新扬帆起航&#xff0c;推出更多优质博文&#xff0c;希望大家多多支持&#xff5e; &#x1f337; 古之立大事者&#xff0c;不惟有超世之才&#xff0c;亦必有坚忍不拔之志 &#x1f390; 个人CSND主页——Mi…

无人机电机选型

2306的意思是电机定子直径23MM&#xff0c;定子高度6MM.在相同KV值的情况下电机的定子体积越大&#xff0c;扭矩越大&#xff1a;KV的意思是每增加1V的电压电机转速增加多少。同参数的电机KV越低&#xff0c;在低速的情况下能带动更大的质量。这也就解释了竞速机选用更高KV值的…

linux中dd命令以及如何测试读写速度

dd命令详解 dd命令是一个在Unix和类Unix系统中非常常用的命令行工具&#xff0c;它主要用于复制文件和转换文件数据。下面我会详细介绍一些dd命令的常见用法和功能&#xff1a; 基本语法 dd命令的基本语法如下&#xff1a; bash Copy Code dd [option]...主要选项和参数 if…

【机器学习】深度探索:从基础概念到深度学习关键技术的全面解析——梯度下降、激活函数、正则化与批量归一化

&#x1f525; 个人主页&#xff1a;空白诗 文章目录 一、机器学习的基本概念与原理二、深度学习与机器学习的关系2.1 概念层次的关系2.2 技术特点差异2.3 机器学习示例&#xff1a;线性回归&#xff08;使用Python和scikit-learn库&#xff09;2.4 深度学习示例&#xff1a;简…

武汉理工大学 云计算与服务计算 期末复习

云计算与的定义 长定义是&#xff1a;“云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上&#xff0c;使各种应用系统能够根据需要获取计算力、存储空间和信息服务。” 短定义是&#xff1a;“云计算是通过网络按需提供可动态伸缩的廉价计算服务。 云计…