【分布式存储】数据存储和检索~LSM

在数据库领域,B+树拥有无可撼动的地位,但是B+树的缺点就是在写多读少的场景下,需要进行大量随机的磁盘IO读写,而这个性能是最差的。并且在删除和添加数据的时候,会造成整个树进行递归的合并、分裂,数据在磁盘上也不是连续的。所以会不断的随机写入操作。

所以针对这个问题,如何在写多读少的场景下提升性能,LSM就是为了解决这个问题。
LSM(Log Structure Merge Tree)比B+树更适合写多读少的场景。
主要原理LSM通过批量的合并写数据,减少磁盘旬道的开销。

早期LSM Tree

C0-tree 是存储在内存中,而C1-tree是存储在磁盘中。
在这里插入图片描述
核心流程是:先将数据写入到C0-tree,当C0-tree数据写入到一定的阈值时,然后开始批量将数据合并和覆写,因为可以批量写入,所以写入磁盘可以进行顺序写入,避免单次的随机写操作。

现代的LSM-tree也是通过内存维护有序结构,然后延迟写入磁盘的时机,通过合并多次随机写操作。降低磁盘移动的开销。
所以在写多读少的场景下,比B+树能获得更多的性能。

现代 LSM Tree

包含三部分,memtable、immutable memtable、SSTable,前两个在内存中,后一个在磁盘中。先将数据写入到memtable、然后在合适的时机写入到SSTbale中。
在这里插入图片描述
其实仔细一想,如果数据都在内存中,那么一旦出现断电或者机器宕机,那么内存中的数据就会丢失?LSM如何来防止出现数据丢失呢
很简单,其实就是利用WAL机制,也就是同步写入到内存中的时候,同步写入到磁盘中一份,因为是是以追加append Only的方式存储,所以可以在一定程度提写数据的性能。

1.Memtable
memtable存储的是近期最新的数据记录,一般使用跳表或者哈希等实现。可以快速的删除和查找。
2.Immutable Table
在memtable达到一定的量级之后,然后会进行数据的合并,好处是一个可以快速的进行顺序写入磁盘中,另一个通过数据副本的方式,memtable可以继续提供服务。
3.SSTable
在这里插入图片描述
包含两部分一个是索引文件,另一个就是数据文件。
写入数据的时候,会按照一个segment为一段,直接将最新的数据追加。那样的话,从尾部查询最后一条数据就是最新的数据。但是这样极端情况下,可能多个数据存储多次,造成磁盘的浪费。并且重复数据多的话,查询效率很差,但是可以利用布隆过滤器进行优化。
在这里插入图片描述

压缩数据
压缩数据,其实就是将多个segment合并成一个新的segment,图中最新的dog是84,所以dog:52在合并之后就不存储了。
在这里插入图片描述
删除数据
删除数据的时候,其实不删除真实数据,而是逻辑删除,通过标记位tombstone。如果存在就代表数据被删除,否则数据存在。
在这里插入图片描述

小结

本篇主要为了解决在B+树中读少写多而带来的数据合并和分裂,引入了LSM,LSM的核心其实就是将数据分为两部分,一部分在内存中,定时更新到磁盘,使用WAL机制来保证数据不丢失。所以在写多读少的场景下,可以通过使用LSM结构进行构建分布式存储结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/89668.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java+springboot+mysql小区宠物管理系统

项目介绍: 使用javaspringbootmysql开发的小区宠物管理系统,系统包含超级管理员,系统管理员、用户角色,功能如下: 超级管理员:管理员管理;用户管理;宠物分类;宠物管理&…

提高考试成绩的有效考试培训系统

近年来,随着考试竞争的日益激烈,对于学生来说,提高考试成绩已成为一项重要的任务。为了帮助学生有效提升考试成绩,我们开发了一套全面而详细的有效的考试培训系统。 该培训系统作为一种全新的教学方法,力求通过提供多…

uni-app使用vue语法进行开发注意事项

目录 uni-app 项目目录结构 生命周期 路由 路由跳转 页面栈 条件编译 文本渲染 样式渲染 条件渲染 遍历渲染 事件处理 事件修饰符 uni-app 项目目录结构 组件/标签 使用(类似)小程序 语法/结构 使用vue 具体项目目录如下: 生命…

[QT编程系列-41]:Qt QML与Qt widget 深入比较,快速了解它们的区别和应用场合

目录 1. Qt QML与Qt widget之争 1.1 出现顺序 1.2 性能比较 1.3 应用应用领域 1.4 发展趋势 1.5 QT Creator兼容上述两种设计风格 2. 界面描述方式的差别 3. QML和Widgets之间的一些比较 4. 选择QML和Widgets之间的Qt技术时,可以考虑以下几个因素&#xff…

初始多线程

目录 认识线程 线程是什么: 线程与进程的区别 Java中的线程和操作系统线程的关系 创建线程 继承Thread类 实现Runnable接口 其他变形 Thread类及其常见方法 Thread的常见构造方法 Thread类的几个常见属性 Thread类常用的方法 启动一个线程-start() 中断…

JVM内存管理

文章目录 1、运行时数据区域1.1 程序计数器(线程私有)1.2 JAVA虚拟机栈(线程私有)1.3 本地方法栈1.4 Java堆(线程共享)1.5 方法区(线程共享)1.6 直接内存(非运行时数据区…

2023牛客暑期多校训练营9-Non-Puzzle: Segment Pair

2023牛客暑期多校训练营9-Non-Puzzle: Segment Pair https://ac.nowcoder.com/acm/contest/57363/I 文章目录 2023牛客暑期多校训练营9-Non-Puzzle: Segment Pair题目大意解题思路代码 题目大意 解题思路 对于每一对 [ l i , r i ] [l_i,r_i] [li​,ri​]和 [ l i ′ , r i …

Linux命令200例:adduser用于创建新用户

🏆作者简介,黑夜开发者,全栈领域新星创作者✌。CSDN专家博主,阿里云社区专家博主,2023年6月csdn上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师,项目技术负责人。 &…

[LeetCode - Python] 11.乘最多水的容器(Medium);26. 删除有序数组中的重复项(Easy)

1.题目: 11.乘最多水的容器(Medium) 1.代码 1.普通双指针对撞 贪心算法 class Solution:def maxArea(self, height: List[int]) -> int:# 对撞双指针# 对比记录最大面积,并移动短板,重新计算;left,…

SpringBoot整合WebSocket详解

环境:Springboot3.0.5 WebSocket介绍 WebSocket协议RFC 6455提供了一种标准化的方式,通过一个TCP连接在客户端和服务器之间建立全双工、双向的通信通道。它是一个不同于HTTP的TCP协议,但设计为在HTTP之上工作,使用80和443端口&am…

Excel革命,基于电子表格开发的新工具,不是Access和Power Fx

深谙其道 在日常工作中,Excel是许多人不可或缺的办公工具。 是微软的旗下产品,属于Microsoft 365套件中的一部分,强大的数据处理和计算功能,被普遍应用在全球各行各业的人群当中,是一款强大且普及的电子表格软件。 于…

Do not access Object.prototype method ‘hasOwnProperty‘ from target object

调用 hasOwnProperty 报错:不要使用对象原型上的方法,因为原型的方法可能会被重写 if (this.formData.selectFields.hasOwnProperty(selectField)) {delete this.formData.selectFields[selectField];} else {this.formData.selectFields[selectField] …

【FastColoredTextBox】C# 开源文本编辑控件

主界面截图 使用Demos演示 FastColoredTextBox 是一个用于在 C# 程序中实现高亮语法着色、代码编辑和文本显示的自定义控件。它提供了许多功能,包括: 语法高亮:FastColoredTextBox 支持多种语言的语法高亮,可以根据语法规则将不同…

安路FPGA的赋值报错——移位处理,加括号

authordaisy.skye的博客_CSDN博客-嵌入式,Qt,Linux领域博主 在使用移位符号用来当作除以号使用时,发现如下问题 其中 cnt_8K 为偶数和奇数时输出的数据不一样 reg [10:0] cnt_8K; reg [10:0] ram1_addra; always(posedge clk_16M) begin if(ram_out_flag )begin if(…

【Servlet】(Servlet API HttpServlet 处理请求 HttpServletRequest 打印请求信息 前端给后端传参)

文章目录 Servlet APIHttpServlet处理请求 HttpServletRequest打印请求信息前端给后端传参 Servlet API Servlet中常用的API HttpServlet 实际开发的时候主要重写 doXXX 方法, 很少会重写 init / destory / service destory 服务器终止的时候会调用. //下面的注解把当前类和…

【ARM】Day1

作业1:思维导图 作业2: 作业3:用for循环实现1~100之间和5050

ROS-PyQt小案例

前言:目前还在学习ROS无人机框架中,,, 更多更新文章详见我的个人博客主页【前往】 ROS与PyQt5结合的小demo,用于学习如何设计一个界面,并与ROS中的Service和Topic结合,从而控制多个小乌龟的运动…

事务和事务的隔离级别

1.4.事务和事务的隔离级别 1.4.1.为什么需要事务 事务是数据库管理系统(DBMS)执行过程中的一个逻辑单位(不可再进行分割),由一个有限的数据库操作序列构成(多个DML语句,select语句不包含事务&…

CSDN编程题-每日一练(2023-08-14)

CSDN编程题-每日一练(2023-08-14) 一、题目名称:小股炒股二、题目名称:王子闯闸门三、题目名称:圆小艺 一、题目名称:小股炒股 时间限制:1000ms内存限制:256M 题目描述: …

算法通关村第七关——递归和迭代实现二叉树前中后序遍历

1.递归 1.1 熟悉递归 所有的递归有两个基本特征: 执行时范围不断缩小,这样才能触底反弹。终止判断在调用递归的前面。 写递归的步骤: 从小到大递推。分情况讨论,明确结束条件。组合出完整方法。想验证就从大到小画图推演。 …