LSM-TREE和SSTable

一、什么是LSM-TREE

LSM Tree 是一种高效的写优化数据结构,专门用于处理大量写入操作
在一些写多读少的场景,为了加快写磁盘的速度,提出使用日志文件追加顺序写,加快写的速度,减少随机读写。但是日志文件只能遍历查询。不支持随机查询,提出使用LSM-TREE。除了利用磁盘顺序写之外,还划分了内存+磁盘多层的合并结构

LSM-TREE(log structured tree) 就是多层的SSTable
1、什么是SSTable
SSTable就是存放在磁盘的一个数据块,里面存放可变数组长度的kv数组。SSTable内部按照key进行排序
在这里插入图片描述
在这里插入图片描述
LSM-TREE类似于ES
写数据
写数据先写在内存的Memtable,Memtable写满后才写入磁盘。
当每层的磁盘上的SSTable的体积超过一定的大小或者个数,会周期的进行合并。此步骤也称为Major Compaction。这个阶段会真正的清除掉被标记删除掉的数据(类似ES段合并)。合并完后进入下一层,因为SSTable内部都是有序的。因此使用mergeSort算法可以快速合并 O(n)复杂度。
查询
1、先在内存里面查询,如果查询到就返回。
2、从上到下,从左到右。遍历每一层级的SSTable的布隆过滤器,快速判断数据在不在此SSTable。(最坏情况需要遍历所有SSTable的filter)
3、SSTable内部有序,进行二分查找
4、刚写入的数据在上面层级,历史数据经过合并落入下层。因此LSM-TREE非常适合时序数据库(这种只查询最近写入的热数据)的场景

一、influxdb和ES都是准实时,都有段合并。 为什么不用倒排索引

influxDb属于写多读少,ES适用读多写少的场景
influxdb序列数据写多读少适用于LSM-TREE 。influxdb根据tag查找序列 适用于倒排索引
influxdb两种结构都使用了

在这里插入图片描述

二、LSM-TREE 分层结构和B+数很类似,有什么区别?

1、LSM-Tree的设计思路是,将数据拆分为几百M大小的Segments(SSTable),并是顺序写入,SSTable太大对于随机读写不友好。B+Tree则是将数据拆分为固定大小的Block或Page, 一般是4KB大小。block块小就适用于随机读写。
2、B+树支持随机读写,因此插入更新,都是实时的。而LSM-TREE更新和ES类似(先删除再新增)准实时。
3、B+树是全局有序的,每一层节点页内部数据 和节点之间 数据都是全局有序。
而SSTable是局部有序,只有SSTable内部有序,SSTable无序。只有层级下沉段合并的时候,才会进行mergeSort形成新的SSTable

LSM-TREE的应用场景:

levelDB, rocksdb influxDb等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/467858.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3使用easy-player播放hls监控流

easy-player未发布在npm上,只能采用静态引入方式,老版本不支持v3 1. 在public文件夹下放入EasyPlayer-element.min.js 和 EasyPlayer.wasm 文件 2. 在根目录index.html引入 这样在vue文件中可以使用easy-player 标签 附件

【VScode】C/C++多文件夹下、多文件引用、分别编译——仅一个设置【适合新人入手】

【VScode】C/C多文件夹内的多文件引用编译 1、问题2、前提(最简环境)3、核心(关键配置)4、成功享用~ 1、问题 在使用 VScode 编写一个简单项目的时候,没有特别配置的情况下,若主文件(.c)引用了自定义的头文…

【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!

数据集介绍 【数据集】道路事故识别数据集 8939 张,目标检测,包含YOLO/VOC格式标注。数据集中包含2种分类:{0: accident, 1: non-accident}。数据集来自国内外图片网站和视频截图。检测范围道路事故检测、监控视角检测、无人机视角检测、等&…

Scala 的包及其导入

Scala使用包来创建用于模块化程序的命名空间。通过在Scala文件的顶部声明一个或多个包名称可以创建包,另一种声明包的方式是使用0,这种方式可以嵌套包,并且提供更好的范围与封装控制。对于包的导入,Scala与Java的区别之一便是&…

使用 HuggingFace 提供的 Elasticsearch 托管交叉编码器进行重新排名

作者:来自 Elastic Jeff Vestal 了解如何使用 Hugging Face 的模型在 Elasticsearch 中托管和执行语义重新排序。 在这篇简短的博文中,我将向你展示如何使用 Hugging Face 中的模型在搜索时在你自己的 Elasticsearch 集群中执行语义重新排序。我们将使用…

深究JS底层原理

一、JS中八种数据类型判断方法 在JavaScript中,数据类型分为两大类:基本(原始)数据类型和引用(对象)数据类型。 基本数据类型(Primitive Data Types) 基本数据类型是表示简单的数…

C++虚继承演示

在继承中如果出现: 这种情况,B和C都继承了A,D继承了B、C 在D中访问A的成员会出现: 这样的警告 是因为在继承时A出现两条分支:ABD、ACD 编译器不知道访问的A中的元素是经过B继承还是C继承 所以B、C在继承A时要用到…

【1】虚拟机安装

1.安装VMware WorkStation Pro VMware下载地址: 密钥:YF390-0HF8P-M81RQ-2DXQE-M2UT6 2.新建虚拟机 centos7下载地址:centos-7.9.2009-isos-x86_64安装包下载_开源镜像站-阿里云

【机器学习】均方误差根(RMSE:Root Mean Squared Error)

均方误差根(Root Mean Squared Error,RMSE)是机器学习和统计学中常用的误差度量指标,用于评估预测值与真实值之间的差异。它通常用于回归模型的评价,以衡量模型的预测精度。 RMSE的定义与公式 给定预测值 和实际值 …

python可视化进阶

引用: 首先需要安装 plotnine from plotnine import* import joypy数据可视化进阶操作 3.1 类别数据可视化 【例3-1】——绘制简单条形图 【代码框3-1】——绘制简单条形图 # 图3-1的绘制代码 import pandas as pd import matplotlib.pyplot as plt from cvxpy …

玩的花,云产品也能拼团了!!!

说起拼单大家都不陌生,电商一贯的营销手段,不过确实可以给消费者省下一笔钱。双11到了,腾讯云产品也玩起了拼团,这明显是对开发人员和各企业的福利。 对于有云产品需求的个人或企业,这次绝对是难得的一次薅羊毛机会。…

设计模式-七个基本原则之一-开闭原则 + SpringBoot案例

开闭原则:(SRP) 面向对象七个基本原则之一 对扩展开放:软件实体(类、模块、函数等)应该能够通过增加新功能来进行扩展。对修改关闭:一旦软件实体被开发完成,就不应该修改它的源代码。 要看实际场景,比如组内…

Flutter 插件 sliding_up_panel 实现从底部滑出的面板

前言 sliding_up_panel 是一个 Flutter 插件,用于实现从底部滑出的面板。它在设计上非常灵活,能够适应多种 UI 场景,比如从底部滑出的菜单、可拖动的弹出面板等。以下是 sliding_up_panel 的详细用法,包括常用的参数说明和示例代…

出海企业如何借助云计算平台实现多区域部署?

云计算de小白 如需进一步了解,请单击链接了解有关 Akamai 云计算的更多信息 在本文中我们将告诉大家如何在Linode云计算平台上借助VLAN快速实现多地域部署。 首先我们需要明确一些基本概念和思想: 部署多区域 VLAN 为了在多区域部署中在不同的 VLAN …

Linux(CentOS)安装 JDK

CentOS版本:CentOS 7 JDK版本:JDK17 1、下载 JDK 官网:https://www.oracle.com/ 2、上传 JDK 文件到 CentOS 使用FinalShell远程登录工具,并且使用 root 用户连接登录(注意这里说的root用户连接登录是指这样的&…

多边形电子围栏算法

在日常生活工作中,我们经常接触到电子围栏,大部分的电子围栏基本上都是圆形的,想要知道某一个点是否在圆形区域内,算法很简单,只需要知道这个圆形区域的圆心坐标和被测点的坐标的距离是否小于半径即可。两点的距离小于…

柯桥学日语J.TEST考试是什么?J.TEST考试报名

J.TEST考试是什么? J.TEST全称为实用日本语鉴定考试,在2007年获得了国家劳动和社会保障部的认可,作为面对母语为非日本语的人员进行的日本语能力测试,J.TEST被越来越多的日本企业所认可,由于其对日语的实际运用能力具有…

谈谈ssh-keygen进行多host配置及使用

背景 传统的Telnet、FTP协议都是使用明文传输数据,存在一定的安全风险,如果传输数据被截取,可能造成数据泄露风险,尤其对于敏感数据,泄露造成的损失无法估计。最近公司、github等平台都不再支持http方式进行代码下载工…

谷粒商城-高级篇-认证服务

1、环境搭建 1、创建gulimall-auth-server模块 2、导入依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schem…

独显装完ubuntu后启动黑屏显示/dev/sda:clean files blocks的解决方案

解决方案如下&#xff1a; 选中Ubuntu按E键 在编辑界面倒数第2行的linux那行&#xff08;后面有quiet splash选项&#xff09;的最后添加nomodeset 然后按F10保存重启 然后管理员权限打开/etc/modprobe.d/blacklist.conf&#xff0c;在文件末尾添加&#xff1a; blacklist…