Level DB --- BloomFilterPolicy

BloomFilterPolicy是Level DB中重要的数据过滤模块,它主要用来先过滤在Block中不存在的key,减少Block的搜索计算量。

Bloom Filter 

从原理上来讲Bloom FIlter相对来说原理还是比较简单的,将一个key经过一次(组合)hash,将hash值映射到bit array的某一个位置上置为1,这样的操作经过k次,一个key 就可以在bit array的k个位置置为1,同样的操作应用到一个 key set上。   这样经过上述的计算,如果再来一个key,将这个key用同样的(组合)hash k 次, 如果有一次在hash array的映射位置检查该位置不为1,那么可以证明这个key不在key set里面。

图1是Level DB中的Bloom Filter的内存结构,这里面的k_就是上段中提到的k次hash的k。而bits_per_key_决定了bit array的大小。很明显,bits_per_key_值越大,bit array越大,相同的hash值碰撞的几率越小,但是需要的内存也越大。

                                                              图1. Bloom Hash Memory

代码核心

BloomFilterPolicy

BloomFilterPolicy的构造函数接收bits_per_key值,它决定了bit array 的大小,同时k_也由这个值决定。

explicit BloomFilterPolicy(int bits_per_key) : bits_per_key_(bits_per_key) {// We intentionally round down to reduce probing cost a little bitk_ = static_cast<size_t>(bits_per_key * 0.69);  // 0.69 =~ ln(2)if (k_ < 1) k_ = 1;if (k_ > 30) k_ = 30; 
}

CreateFilter

CreateFilter主要用来根据输入的key set,计算bloom hash bit array。细节如下注释:

void CreateFilter(const Slice* keys, int n, std::string* dst) const override {// Compute bloom filter size (in both bits and bytes)size_t bits = n * bits_per_key_; /*hash bit array 大小计算*/// For small n, we can see a very high false positive rate.  Fix it// by enforcing a minimum bloom filter length.if (bits < 64) bits = 64;size_t bytes = (bits + 7) / 8; /*换成bytes大小,向下取整*/bits = bytes * 8;const size_t init_size = dst->size();dst->resize(init_size + bytes, 0);dst->push_back(static_cast<char>(k_));  // Remember # of probes in filterchar* array = &(*dst)[init_size];for (int i = 0; i < n; i++) {// Use double-hashing to generate a sequence of hash values.// See analysis in [Kirsch,Mitzenmacher 2006].uint32_t h = BloomHash(keys[i]); /*hash 值计算*/const uint32_t delta = (h >> 17) | (h << 15);  // Rotate right 17 bitsfor (size_t j = 0; j < k_; j++) { /*k_次hash , 选择k_个bit array 的位置,set为1*/const uint32_t bitpos = h % bits;array[bitpos / 8] |= (1 << (bitpos % 8));h += delta;}}
}

KeyMayMatch

KeyMayMatch,用来计算生成bloom filter bit array后,当输入一个新key,判断这个key是否在之前的key set里面。细节如下注释:

bool KeyMayMatch(const Slice& key, const Slice& bloom_filter) const override {const size_t len = bloom_filter.size();if (len < 2) return false;const char* array = bloom_filter.data();const size_t bits = (len - 1) * 8;// Use the encoded k so that we can read filters generated by// bloom filters created using different parameters.const size_t k = array[len - 1];if (k > 30) { /*这种情况不会发生,因为在构造函数中k_在[1, 30]范围内*/// Reserved for potentially new encodings for short bloom filters.// Consider it a match.return true;}uint32_t h = BloomHash(key);const uint32_t delta = (h >> 17) | (h << 15);  // Rotate right 17 bitsfor (size_t j = 0; j < k; j++) {const uint32_t bitpos = h % bits;if ((array[bitpos / 8] & (1 << (bitpos % 8))) == 0) return false; /*如果有一次hash bit 没有对上,可以证明这个key不在之前key set里面*/h += delta;}return true;
}

总结

Level DB中实现的Bloom Filter计算代码不长,但是里面涉及到的bit计算还是很简洁的。一个Block会存储大量的key,所以一个Block的bit array占用内存的空间还是比较大的,但是Bloom Filter也大量减少了Block的检索的计算。当KeyMayMatch返回false,证明这个key一定不在Block里面,直接返回即可;当KeyMayMatch返回true,可以继续再在Block里面进行检索、验证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/502353.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ELK 使用教程采集系统日志 Elasticsearch、Logstash、Kibana

前言 你知道对于一个系统的上线考察&#xff0c;必备的几样东西是什么吗&#xff1f;其实这也是面试中考察求职者&#xff0c;是否真的做过系统开发和上线的必备问题。包括&#xff1a;服务治理(熔断/限流) (opens new window)、监控 (opens new window)和日志&#xff0c;如果…

【MySQL】九、表的内外连接

文章目录 前言Ⅰ. 内连接案例&#xff1a;显示SMITH的名字和部门名称 Ⅱ. 外连接1、左外连接案例&#xff1a;查询所有学生的成绩&#xff0c;如果这个学生没有成绩&#xff0c;也要将学生的个人信息显示出来 2、右外连接案例&#xff1a;对stu表和exam表联合查询&#xff0c;把…

机器学习周报-ModernTCN文献阅读

文章目录 摘要Abstract 0 提升有效感受野&#xff08;ERF&#xff09;1 相关知识1.1 标准卷积1.2 深度分离卷积&#xff08;Depthwise Convolution&#xff0c;DWConv&#xff09;1.3 逐点卷积&#xff08;Pointwise Convolution&#xff0c;PWConv&#xff09;1.4 组卷积(Grou…

计算机的错误计算(二百零二)

摘要 利用三个大模型化简计算 前面分式的分子为零&#xff0c;因此正确值是后面的数值300.09...321 . 让三个大模型计算&#xff0c;它们均没有看出分式的分子中被减数与减数是相等的。因此&#xff0c;均得出了错误结果。 例1. 化简计算摘要中算式的值。 下面是一个大模型的…

2025-01-04 Unity插件 YodaSheet1 —— 插件介绍

文章目录 1 介绍2 工作原理2.1 ScriptableObject -> YadeSheetData2.2 YadeDatabase 存储多个 YadeSheetData 3 用途4 缺点5 推荐 1 介绍 ​ Yade 提供类似于 Excel 或者 Google Sheets 的表格编辑器&#xff0c;可以轻松地在 Unity 编辑器中 编辑&#xff0c;搜索&#xf…

connect to host github.com port 22: Connection timed out 的解决方法

原因是 Github 被 GFW 屏蔽了。 Windows 系统&#xff0c;打开 C:\Windows\System32\drivers\etc&#xff0c;复制其中的 hosts 文件至桌面&#xff0c;用文本编辑器或者其他工具打开。 复制以下内容进去&#xff1a; 140.82.114.4 github.com 151.101.1.6 github.global.ss…

memcached的基本使用

memcached是一种基于键值对的内存数据库&#xff0c;一般应用于缓存数据&#xff0c;提高数据访问速度&#xff0c;减轻后端数据库压力。 安装 这里以Ubuntu为例&#xff0c;其他系统安装方法请看官方文档。 sudo apt-get update sudo apt-get install memcached启动 memca…

【操作系统不挂科】操作系统期末考试题库<2>(单选题&简答题&计算与分析题&程序分析题&应用题)

前言 大家好吖&#xff0c;欢迎来到 YY 滴 操作系统不挂科 系列 &#xff0c;热烈欢迎&#xff01; 本章主要内容面向接触过C的老铁 目录 一、单项选择题&#xff08;每空2分&#xff0c;共40分&#xff09;1&#xff0e;以下选项中&#xff0c;&#xff08; &#xff09;不是操…

ip属地的信息准确吗?ip归属地不准确怎么办

在数字化时代&#xff0c;IP属地信息成为了我们日常生活中不可或缺的一部分。在各大社交媒体平台上&#xff0c;IP属地信息都扮演着重要的角色。然而&#xff0c;随着技术的不断进步和网络的复杂性增加&#xff0c;IP属地信息的准确性问题也日益凸显。那么&#xff0c;IP属地信…

【GUI-pyqt5】QWidget类

1. 描述 所有可视空间的基类是一个最简单的空白控件控件是用户界面的最小元素 接收各种事件&#xff08;鼠标、键盘&#xff09;绘制在桌面上&#xff0c;显示给用户看 每个控件都是矩形的&#xff0c;它们按z轴顺序排序控件由其父控件和前面的控件剪切没有父控件的控件&#…

Linux(Centos 7.6)命令详解:ls

1.命令作用 列出目录内容(list directory contents) 2.命令语法 Usage: ls [OPTION]... [FILE]... 3.参数详解 OPTION: -l&#xff0c;long list 使用长列表格式-a&#xff0c;all 不忽略.开头的条目&#xff08;打印所有条目&#xff0c;包括.开头的隐藏条目&#xff09…

unity学习6:unity的3D项目的基本界面和菜单

目录 1 unity界面的基本认识 1.1 file 文件 1.2 edit 编辑/操作 1.3 Assets 1.4 gameobject 游戏对象 1.5 组件 1.6 windows 2 这些部分之间的关系 2.1 关联1&#xff1a; Assets & Project 2.2 关联2&#xff1a;gameobject & component 2.3 关联3&#xf…

生成模型的现状2025年的新兴趋势

2024年对人工智能而言是极为出色的一年。在文本生成和图像生成这两方面&#xff0c;我们目睹了模型能力全方位出现了类似阶跃函数般的巨大提升。这一年起始时OpenAI占据主导地位&#xff0c;而到了年末&#xff0c;Anthropic的Claude成了我常用的大型语言模型&#xff0c;并且还…

PWN 的知识之如何利用栈溢出利用后门函数

PWN 的知识之如何利用栈溢出利用后门函数 利用栈溢出漏洞调用原本存在的后门函数&#xff08;例如 get_flag 或system("/bin/sh")&#xff09;是二进制漏洞利用中的一种常见技术,相信各位网安的师傅或多或少都听说过&#xff0c;那么如何利用栈溢出来利用后门函数呢…

基于YOLO11的道路缺陷检测系统

基于YOLO11的道路缺陷检测系统 (价格90) 包含 [cracks, potholes] [裂缝, 凹坑] 2个类 通过PYQT构建UI界面&#xff0c;包含图片检测&#xff0c;视频检测&#xff0c;摄像头实时检测。 &#xff08;该系统可以根据数据训练出的yolo11的权重文件&#xff0c;运用在其他…

JAVA:Spring Boot 集成 Quartz 实现分布式任务的技术指南

1、简述 Quartz 是一个强大的任务调度框架&#xff0c;允许开发者在应用程序中定义和执行定时任务。在 Spring Boot 中集成 Quartz&#xff0c;可以轻松实现任务的调度、管理、暂停和恢复等功能。在分布式系统中&#xff0c;Quartz 也支持集群化的任务调度&#xff0c;确保任务…

数据分析-Excel

数据类型和函数初步 Excel中有文本类型和数值类型–但是无法用肉眼分辨出来isnumber来区分是否是数值类型text和value函数可以完成数值类型以及文本类型的转换单元格第一位输入’方式明确输入的是文本sum函数必须是数值类型 文本连接-and-or-not-if-mod-max函数 字符串的连接…

深入了解 SSL/TLS 协议及其工作原理

深入了解 SSL/TLS 协议及其工作原理 一. 什么是 SSL/TLS?二. SSL/TLS 握手过程三. SSL/TLS 数据加密与传输四. 总结 点个免费的赞和关注&#xff0c;有错误的地方请指出&#xff0c;看个人主页有惊喜。 作者&#xff1a;神的孩子都在歌唱 一. 什么是 SSL/TLS? 安全套接层&am…

【NLP高频面题 - Transformer篇】Transformer的输入中为什么要添加位置编码?

Transformer的输入中为什么要添加位置编码&#xff1f; 重要性&#xff1a;★★★ Transformer 将句子中的所有词并行地输入到神经网络中。并行输入有助于缩短训练时间&#xff0c;同时有利于学习长期依赖。不过&#xff0c;并行地将词送入 Transformer&#xff0c;却不保留词…

【Unity3D】UGUI Canvas画布渲染流程

目录 Screen Space - Overlay Screen Space - Camera World Space UI合批分析&#xff08;建议不看 直接看FrameDebugger测试&#xff09; 优化UI合批 1、Image图片纹理不同导致合批失败 2、文本和图片相交以及排序对合批的影响 参考文档&#xff1a;画布 - Unity 手册…