【高阶数据结构】布隆过滤器(BloomFilter)

1. 概念

1.1 背景引入

背景:在计算机软件中,一个常见的需求就是 在一个集合中查找一个元素是否存在 ,比如:1. Word 等打字软件需要判断用户键入的单词是否在字典中存在 2. 浏览器等网络爬虫程序需要保存一个列表来记录已经遍历过的 url,遇到一个 url 先判断是否已经访问过 3. FBI 系统中需要判断名称是否在嫌疑人名单中。一般来说都会考虑使用哈希表等键值结构进行存储,以此提高查询的效率,但是在海量数据情况下存在存储空间占用过高的情况:

例如:在 Gmail 等大型邮件服务商需要过滤垃圾邮件,但是发送垃圾邮件的地址不断会注册新地址,因此将它们全部存储起来需要大量内存资源,假设有 40亿 个垃圾邮件地址,每个地址使用 4 字节存储,大概需要占用 16G 内存空间,常见的方案汇总如下:

  1. 直接使用哈希表进行存储,缺点:空间存储占用过高 ✖
  2. 使用位图数据结构,缺点:位图只适合存储整型数据,应对字符串无法适用 ✖
  3. 使用布隆过滤器,将位图和哈希映射有效结合 ✔

1.2 布隆过滤器概念

布隆过滤器:是位图 + 哈希的结合,简单来说就是通过多个哈希函数将键映射到位图当中,是一种紧凑的,高效的 概率型数据结构,它可以高效的进行插入、查询等操作,并且能够告诉你某一个元素 一定不存在或者可能存在

例如上图是一个简单的布隆过滤器示意图,hash1函数将"baidu"映射到位图为5的位置,hash2函数将"baidu"映射到位图为2的位置,hash3函数将"baidu"映射到位图为1的位置

2. 布隆过滤器模拟实现

2.1 结构定义

在上节已经介绍过,布隆过滤器本质就是 “哈希 + 位图” 的结合,因此我们想要自定义一个布隆过滤器,就需要准备位图和哈希函数:

  • 位图:此处采用上节模拟实现的自定义位图结构
  • 哈希函数:采用自定义 HashFunc 类型

目录结构:

main.go

// MyBloomFilter 自定义布隆过滤器
type MyBloomFilter struct {bitMap    mybitmap.MyBitMap // 自定义位图hashArray [3]hash.HashFunc  // 自定义哈希函数数组seeds     [3]int            // 随机数种子usedSize  int               // 存储元素个数
}// InitBloomFilter 初始化布隆过滤器函数
func InitBloomFilter() *MyBloomFilter {var bloomFilter MyBloomFilterbloomFilter.bitMap = *mybitmap.InitBitMap()bloomFilter.seeds = [3]int{11, 22, 33}bloomFilter.usedSize = 0for i := 0; i < 3; i++ {bloomFilter.hashArray[i] = *hash.InitHashFunc(100, bloomFilter.seeds[i])}return &bloomFilter
}

hash.go

package hashimport "hash/crc32"// HashFunc 哈希函数类型
type HashFunc struct {capacity int // 容量seed     int // 随机数种子
}// InitHashFunc 初始化哈希函数
func InitHashFunc(capacity, seed int) *HashFunc {return &HashFunc{capacity: capacity,seed:     seed,}
}// Hash 哈希方法: 返回key映射结果
func (hashFunc *HashFunc) Hash(key string) int {v := int(crc32.ChecksumIEEE([]byte(key)))return (hashFunc.capacity * hashFunc.seed % 80) & (v >> 16)
}

bitmap.go

package mybitmap// MyBitMap 自定义位图结构体
type MyBitMap struct {elem     []byte // 字节数组usedSize int    // 存储的元素个数
}// InitBitMap 初始化函数
func InitBitMap() *MyBitMap {var bitMap MyBitMapbitMap.elem = make([]byte, 10)bitMap.usedSize = 0return &bitMap
}// Set 添加元素
func (bitMap *MyBitMap) Set(num int) {if num < 0 {panic("num必须大于等于0!")}// 1. 获取字节数组对应存储下标var elemIndex = num / 8// 2. 获取所在字节的比特位var bitIndex = num % 8// 3. 使用或运算bitMap.elem[elemIndex] |= 1 << bitIndex// 4. 存储元素个数+1bitMap.usedSize++
}// Get 查找某个元素是否存在
func (bitMap *MyBitMap) Get(num int) bool {if num < 0 {panic("num必须大于等于0!")}// 1. 获取字节数组对应存储下标var elemIndex = num / 8// 2. 获取所在字节的比特位var bitIndex = num % 8// 3. 使用与运算return !(bitMap.elem[elemIndex]&(1<<bitIndex) == 0)
}// Reset 重置某个元素
func (bitMap *MyBitMap) Reset(num int) {if num < 0 {panic("num必须大于等于0!")}// 1. 获取字节数组对应存储下标var elemIndex = num / 8// 2. 获取所在字节的比特位var bitIndex = num % 8// 3. 查找元素是否存在if bitMap.Get(num) {bitMap.usedSize--}// 4. 使用 ~运算 + &运算bitMap.elem[elemIndex] &= ^(1 << bitIndex)
}// Reset2 重置某个元素
func (bitMap *MyBitMap) Reset2(num int) {if num < 0 {panic("num必须大于等于0!")}// 1. 获取字节数组对应存储下标var elemIndex = num / 8// 2. 获取所在字节的比特位var bitIndex = num % 8// 3. 查找元素是否存在if bitMap.Get(num) {// 使用异或bitMap.elem[elemIndex] ^= 1 << bitIndexbitMap.usedSize--} else {// nothing to do....}
}// GetUsedSize 获取已经存储元素个数
func (bitMap *MyBitMap) GetUsedSize() int {return bitMap.usedSize
}

💡 提示:如果没有学过位图的数据结构实现,可以参考我的另一篇博客:https://blog.csdn.net/weixin_62533201/article/details/145216138

2.2 插入数据

上图为插入数据到布隆过滤器示意图:我们只需要分别调用三个哈希函数计算各自的位图存储位置,然后保存到位图即可!代码如下:

// Insert 插入值到布隆过滤器当中
func (bloomFilter *MyBloomFilter) Insert(key string) {// 分别计算三个哈希函数计算值for i := 0; i < len(bloomFilter.hashArray); i++ {value := bloomFilter.hashArray[i].Hash(key)// 插入到位图中bloomFilter.bitMap.Set(value)}
}

2.3 查询数据

上图为从布隆过滤器中查询数据示意图:我们依然需要分别调用三个哈希函数计算各自的位图存储位置,分别查询位图目标位置是否为1,如果某一个为 0,则表明这个数据一定不存在;如果全部为 1,则表明这个数据可能存在! 这也是布隆过滤器的缺点:会存在误判的可能!因为存在一种情况,如果其他 key 对应存储位置也恰好是 1、2、5,此时出现了哈希冲突,因此无法保障一个元素一定存在,代码如下:

// MightContain 从布隆过滤器中查询元素
func (bloomFilter *MyBloomFilter) MightContain(key string) bool {// 分别计算三个哈希函数对应值for i := 0; i < len(bloomFilter.hashArray); i++ {value := bloomFilter.hashArray[i].Hash(key)// 判断值是否为0if !bloomFilter.bitMap.Get(value) {return false}}// 全部为1判断为存在(存在误判可能)return true
}

💡 提示:布隆过滤器存在误判的可能!适用于对误判率敏感度不高的场景

2.4 删除数据

如果采用上述结构来实现布隆过滤器,不建议提供删除操作,因为会增加其他元素的误判率!比如存在一种情况"baidu"映射的位置是1、5、7,"tencent"映射的位置是1、3、4,此时删除"baidu"对应的1、5、7,就会导致1处为0,查询"tencent"就会返回不存在!

💡 温馨提示:如果想要让布隆过滤器支持删除操作,可以修改对应数据结构,比如给对应比特位设置 k 个计数器(k为哈希函数的个数),删除一次就将对应k个计数器-1,但是依旧存在以下缺点:

  1. 存在序号回绕问题:计数器的值可能溢出
  2. 依旧无法解决布隆过滤器的误判问题

2.5 完整代码

package mainimport ("bloomfilter/hash""bloomfilter/mybitmap""fmt"
)// MyBloomFilter 自定义布隆过滤器
type MyBloomFilter struct {bitMap    mybitmap.MyBitMap // 自定义位图hashArray [3]hash.HashFunc  // 自定义哈希函数数组seeds     [3]int            // 随机数种子usedSize  int               // 存储元素个数
}// InitBloomFilter 初始化布隆过滤器函数
func InitBloomFilter() *MyBloomFilter {var bloomFilter MyBloomFilterbloomFilter.bitMap = *mybitmap.InitBitMap()bloomFilter.seeds = [3]int{11, 22, 33}bloomFilter.usedSize = 0for i := 0; i < 3; i++ {bloomFilter.hashArray[i] = *hash.InitHashFunc(100, bloomFilter.seeds[i])}return &bloomFilter
}// Insert 插入值到布隆过滤器当中
func (bloomFilter *MyBloomFilter) Insert(key string) {// 分别计算三个哈希函数计算值for i := 0; i < len(bloomFilter.hashArray); i++ {value := bloomFilter.hashArray[i].Hash(key)// 插入到位图中bloomFilter.bitMap.Set(value)}
}// MightContain 从布隆过滤器中查询元素
func (bloomFilter *MyBloomFilter) MightContain(key string) bool {// 分别计算三个哈希函数对应值for i := 0; i < len(bloomFilter.hashArray); i++ {value := bloomFilter.hashArray[i].Hash(key)// 判断值是否为0if !bloomFilter.bitMap.Get(value) {return false}}// 全部为1判断为存在(存在误判可能)return true
}func main() {var bloomFilter = InitBloomFilter()// 插入数据bloomFilter.Insert("DiDi")bloomFilter.Insert("baidu")fmt.Println(bloomFilter.bitMap)// 查询元素fmt.Println(bloomFilter.MightContain("DiDi"))fmt.Println(bloomFilter.MightContain("baidu"))fmt.Println(bloomFilter.MightContain("tencent"))fmt.Println(bloomFilter.MightContain("alibaba"))
}

程序运行结果:

3. 布隆过滤器小结

3.1 优点

  • 布隆过滤器的插入和查询时间复杂度都为O(k),k为哈希函数的个数,效率非常高
  • 布隆过滤器可以存在多个哈希函数,在分布式场景下也可以并行计算提升效率,且相互不干扰
  • 布隆过滤器可以存储字符串等类型,相比位图扩展性更高
  • 布隆过滤器在海量数据场景下,存储空间利用率高
  • 布隆过滤器不存储值本身,适用于一些数据敏感场景

3.2 缺点

  • 布隆过滤器天然存在误判的问题
  • 布隆过滤器无法获取值本身
  • 一般情况下布隆过滤器难以实现删除操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5287.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

偏序关系.

一、偏序&#xff08;半序&#xff09;关系 偏序关系 自反反对称传递性 二、全序&#xff08;线序、链&#xff09;关系 三、偏序集中的重要元素 1. 极大元与极小元 极大元找所在集合的一个或几个最高点&#xff1b; 极小元找所在集合的一个或几个最低点。 2. 最大元与最小…

国产编辑器EverEdit - 列编辑模式

1 列模式 1.1 应用背景 在编辑CSV格式&#xff0c;或者比较规整的配置文件时&#xff0c;可能会用到一列的内容都要进行修改的情况&#xff0c;在不支持列模式的编辑器中&#xff0c;可能需要用户逐行去编辑&#xff0c;比如有下面一段扯淡文本&#xff1a; ADD NRNFREQ:LOCA…

论文笔记(六十三)Understanding Diffusion Models: A Unified Perspective(一)

Understanding Diffusion Models: A Unified Perspective&#xff08;一&#xff09; 文章概括引言&#xff1a;生成模型背景&#xff1a;ELBO、VAE 和分层 VAE证据下界&#xff08;Evidence Lower Bound&#xff09;变分自编码器 &#xff08;Variational Autoencoders&#x…

【重庆市乡镇界】面图层shp格式arcgis数据乡镇名称和编码wgs84坐标无偏移内容测评

标题中的“最新重庆市乡镇界面图层shp格式arcgis数据乡镇名称和编码wgs84坐标无偏移最新”指的是一个地理信息系统&#xff08;GIS&#xff09;的数据集&#xff0c;特别设计用于ArcGIS软件。这个数据集包含了重庆市所有乡镇的边界信息&#xff0c;以Shapefile&#xff08;.shp…

【0x04】HCI_Connection_Request事件详解

目录 一、事件概述 二、事件格式及参数 2.1. HCI_Connection_Request 事件格式 2.2. BD_ADDR 2.3. Class_Of_Device 2.4. Link_Type 三、主机响应 3.1. ACL链接类型 3.2. SCO或eSCO链接类型 四、应用场景 4.1. 设备配对场景 4.2. 蓝牙文件传输场景 4.3. 蓝牙物联网…

9. 神经网络(一.神经元模型)

首先&#xff0c;先看一个简化的生物神经元结构&#xff1a; 生物神经元有多种类型&#xff0c;内部也有复杂的结构&#xff0c;但是可以把单个神经元简化为3部分组成&#xff1a; 树突&#xff1a;一个神经元往往有多个树突&#xff0c;用于接收传入的信息。轴突&#xff1a;…

CTTSHOW-WEB入门-爆破25-28

web25 题目&#xff1a;解题思路及步骤&#xff1a;分析代码&#xff1a; error_reporting(0); include("flag.php");//包含文件flag.php if(isset($_GET[r])){$r $_GET[r];//获取参数rmt_srand(hexdec(substr(md5($flag), 0,8)));$rand intval($r)-intval(mt_ra…

win32汇编环境,对多行编辑框添加或删除文本

;运行效果 ;win32汇编环境,对多行编辑框添加或删除文本 ;主要要先设置文本的开始点与结束点&#xff0c;然后把一段文本顶替上去。没有添加文本或删除文本的概念&#xff0c;只有顶替。如果开始点与结束点都是前面文本的长度值&#xff0c;则成了从后面添加文本的效果。如果结束…

AutoGen入门——快速实现多角色、多用户、多智能体对话系统

1.前言 如https://github.com/microsoft/autogen所述&#xff0c;autogen是一多智能体的框架&#xff0c;属于微软旗下的产品。 依靠AutoGen我们可以快速构建出一个多智能体应用&#xff0c;以满足我们各种业务场景。 本文将以几个示例场景&#xff0c;使用AutoGen快速构建出…

项目中使用的是 FastJSON(com.alibaba:fastjson)JSON库

从你的 pom.xml 文件中可以看到&#xff0c;项目明确依赖了以下 JSON 库&#xff1a; FastJSON&#xff1a; <dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>1.2.47</version> </depende…

EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成

EAMM: 通过基于音频的情感感知运动模型实现的一次性情感对话人脸合成 1所有的材料都可以在EAMM: One-Shot Emotional Talking Face via Audio-Based Emotion-Aware Motion Model网站上找到。 摘要 尽管音频驱动的对话人脸生成技术已取得显著进展&#xff0c;但现有方法要么忽…

cuda从零开始手搓PB神经网络

cuda实现PB神经网络 基于上一篇的矩阵点乘&#xff0c;实现了矩阵的加减乘除、函数调用等。并且复用之前元编程里面写的梯度下降、Adam、NAdam优化方法。实现PB神经网络如下&#xff1a; #ifndef __BP_NETWORK_HPP__ #define __BP_NETWORK_HPP__ #include "matrix.hpp&quo…

【Java数据结构】排序

【Java数据结构】排序 一、排序1.1 排序的概念1.2 排序的稳定性1.3 内部排序和外部排序1.3.1 内部排序1.3.2 外部排序 二、插入排序2.1 直接插入排序2.2 希尔排序 三、选择排序3.1 选择排序3.2 堆排序 四、交换排序4.1 冒泡排序4.2 快速排序Hoare法&#xff1a;挖坑法&#xff…

内存 管理

1、如何在LCD上面实现SD卡文件浏览&#xff1f; 需要读取所有文件名到内存&#xff0c;方法是定义一个数组才存储所有文件名。&#xff08;最大文件名的长度和文件个数&#xff09; 2、内存管理是什么&#xff1f; 指软件运行时对MCU内存资源的分配和使用的技术。要实现两个函…

1月21日星期二今日早报简报微语报早读

1月21日星期二&#xff0c;农历腊月廿二&#xff0c;早报#微语早读。 1、多地官宣&#xff1a;2025年可有序、限时或在限定区域燃放烟花爆竹&#xff1b; 2、TikTok恢复在美服务&#xff1b;特朗普提出继续运营TikTok方案&#xff0c;外交部&#xff1a;若涉及收购中国企业应…

深度学习python基础(第三节) 函数、列表

本节主要介绍函数、列表的基本语法格式。 函数 与c语言的函数差不多&#xff0c;就是语法基本格式不同。 name "loveyou" length len(name) print("字符串的长度为&#xff1a;%d" % length) # 自定义函数 def countstr(data):count 0for i in da…

STM32 FreeROTS Tickless低功耗模式

低功耗模式简介 FreeRTOS 的 Tickless 模式是一种特殊的运行模式&#xff0c;用于最小化系统的时钟中断频率&#xff0c;以降低功耗。在 Tickless 模式下&#xff0c;系统只在有需要时才会启动时钟中断&#xff0c;而在无任务要运行时则完全进入休眠状态&#xff0c;从而降低功…

65,【5】buuctf web [SUCTF 2019]Upload Labs 2

进入靶场 1,源代码 点击题目时有个就有个admin.php <?php // 引入配置文件 include config.php;class Ad{public $cmd;public $clazz;public $func1;public $func2;public $func3;public $instance;public $arg1;public $arg2;public $arg3;// 构造函数&#xff0c;用于初…

Apache Tomcat文件包含漏洞复现(详细教程)

1.漏洞原理 Tomcat 服务器是一个免费的开放源代码的Web 应用服务器&#xff0c;其安装后会默认开启ajp连接器&#xff0c;方便与其他web服务器通过ajp协议进行交互。属于轻量级应用服务器&#xff0c;在中小型系统和并发访问用户不是很多的场合下被普遍使用&#xff0c;是开发…

springboot基于安卓的智启教育服务平台app

基于Spring Boot的智启教育服务平台App是一个结合了Spring Boot后端框架与安卓前端技术的综合性教育服务平台。 一、技术背景与架构 1.开发语言&#xff1a;后端采用Java语言开发&#xff0c;充分利用Java的跨平台性、面向对象特性和强大的后端处理能力。前端则使用安卓开发技…