【算法】深入理解布隆过滤器

1. 什么是布隆过滤器?

布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,用于检测某个元素是否在一个集合中。与常见的数据结构如哈希表不同,布隆过滤器无法删除元素,并且会存在一定的误判率,即它可能会错误地判断一个不存在的元素为存在。

尽管如此,布隆过滤器在大规模数据场景中具有巨大的优势,特别是在存储和计算资源有限的情况下,它可以显著减少内存占用,并提供极高效的查询性能。

2. 业务场景

布隆过滤器的典型应用场景包括:

  • 缓存穿透:在分布式缓存系统中,如 Redis,如果大量不存在的数据请求直接打到数据库层,会对数据库造成较大压力。布隆过滤器可以提前过滤掉这些不存在的请求,避免数据库查询。
  • 反垃圾邮件系统:判断某个电子邮件是否曾被标记为垃圾邮件。布隆过滤器可以快速检测某个邮件是否已经处理过。
  • Web 爬虫:判断 URL 是否已经被爬取,避免重复爬取相同的页面。
  • 区块链:在比特币等加密货币中,布隆过滤器用于快速判断某个交易是否相关。

3. 布隆过滤器的原理

布隆过滤器的核心思想是使用多个哈希函数来映射数据到一个位数组中,并通过检查位数组中的对应位来判断某个元素是否可能存在。

3.1 工作流程

  1. 初始化:布隆过滤器开始时是一个长度为 m 的位数组,所有位都被设置为 0。
  2. 插入操作:当插入一个元素时,布隆过滤器会通过 k 个独立的哈希函数对该元素进行哈希运算,得到 k 个哈希值。然后将这些哈希值对应的位数组位置置为 1。
  3. 查询操作:查询时,同样使用 k 个哈希函数对元素进行哈希运算。如果所有哈希函数对应的位数组中的位置都为 1,则说明该元素可能存在;如果有任何一个位置为 0,则说明该元素一定不存在。

3.2 错误率

布隆过滤器并不能 100% 精确地判断元素是否存在,它会存在误判的可能性。即使一个元素没有插入到布隆过滤器中,它也有可能由于哈希冲突而被误认为存在。

错误率取决于:

  • 位数组的长度 m
  • 哈希函数的数量 k
  • 插入元素的数量 n

通过合理选择这些参数,可以将误判率控制在可接受的范围内。

3.3 最佳参数选择

在实际应用中,优化误判率非常重要。哈希函数的数量 k 与位数组的大小 m 有一个最佳值,通常可以通过以下公式计算:

  • 误判率P = \left( 1 - e^{-\frac{kn}{m}} \right)^k
    • P 是误判率
    • k 是哈希函数的数量
    • n 是插入的元素个数
    • m 是位数组的大小
    • e 是自然常数
  • 最佳哈希函数个数k = \frac{m}{n} \cdot \ln(2)
    • k 是哈希函数的数量
    • m 是位数组的大小
    • n 是插入的元素个数
    • ln⁡(2) 是 2 的自然对数

4. 布隆过滤器的 Python 实现

下面我们使用 Python 实现一个简单的布隆过滤器。

import mmh3  # 需要安装 mmh3 库
from bitarray import bitarray  # 需要安装 bitarray 库class BloomFilter:def __init__(self, size, hash_count):self.size = sizeself.hash_count = hash_countself.bit_array = bitarray(size)self.bit_array.setall(0)def add(self, item):for i in range(self.hash_count):digest = mmh3.hash(item, i) % self.sizeself.bit_array[digest] = 1def check(self, item):for i in range(self.hash_count):digest = mmh3.hash(item, i) % self.sizeif self.bit_array[digest] == 0:return Falsereturn True# 初始化布隆过滤器
bf = BloomFilter(size=1000, hash_count=5)# 添加元素
bf.add("hello")
bf.add("world")# 查询元素
print(bf.check("hello"))  # 输出: True
print(bf.check("python"))  # 输出: False

4.1 实现说明

  • bitarray:用于表示布隆过滤器的位数组。我们使用第三方库 bitarray,因为它比 Python 自带的 list 更加节省空间。
  • mmh3:用于计算哈希值的库。mmh3.hash(item, i) 表示对元素进行哈希运算,i 用作种子,生成不同的哈希值。

5. 布隆过滤器的扩展

5.1 可扩展布隆过滤器

当布隆过滤器的容量被填满时,误判率会急剧上升。为了解决这个问题,可以使用可扩展布隆过滤器(Scalable Bloom Filter),它通过动态增加新的布隆过滤器来保证误判率保持在设定值以下。

5.2 布谷鸟过滤器

布谷鸟过滤器是一种与布隆过滤器类似的数据结构,但它支持删除操作,并且通常具有更低的错误率。它通过布谷鸟哈希法在内存中为元素找到更合适的位置。

6. 总结

布隆过滤器是一个极具效率的数据结构,尤其适用于需要快速判断某个元素是否存在于大规模数据集中的场景。虽然它存在误判的缺点,但通过合理设置参数,可以将误判率降至较低范围。同时,布隆过滤器的轻量化和快速性使得它在缓存、爬虫、反垃圾邮件等领域得到了广泛应用。


参考

  1. Bloom Filter in Python

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/450383.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实操部署amis-admin

当需要做一个web服务的时候,前端的实现很令我头疼。搜了一圈前端低代码框架后,注意到百度贡献的amis,通过json来写前端,很酷啊。不得不说,一个好的demo项目,真的能让人迅速进入状态,比直接看文档…

c++常用库函数

一.sort排序 快排的改进算法&#xff0c;评价复杂度为(nlogn). 1.用法 sort(起始地址&#xff0c;结束地址下一位&#xff0c;*比较函数) [起始地址&#xff0c;结束地址) (左开右闭) #include<bits/stdc.h> using namespace std; int main() {//sortvector<int&g…

基础sql

在执行删除操作之前&#xff0c;建议先运行一个 SELECT 查询来确认你要删除的记录。这可以帮助你避免误删数据。 删除字段id默认值为空字符串的所有数据 delete from users where id ; 删除字段id默认值为null的所有数据 delete from users where id is null; 删除字段upd…

msvcp140.dll重新安装的解决方法,msvcp140.dll丢失快速修复教程

msvcp140.dll丢失的问题是许多电脑用户经常遇到的问题。msvcp140.dll是Microsoft Visual C Redistributable Package的一部分&#xff0c;这个软件包包含了许多Windows系统运行所需的重要文件。当msvcp140.dll丢失时&#xff0c;可能会导致许多应用程序无法正常运行&#xff0c…

基于华为云智慧生活生态链设计的智能鱼缸

一. 引言 1.1 项目背景 随着智能家居技术的发展和人们对高品质生活的追求日益增长&#xff0c;智能鱼缸作为一种结合了科技与自然美的家居装饰品&#xff0c;正逐渐成为智能家居领域的新宠。本项目旨在设计一款基于华为云智慧生活生态链的智能鱼缸&#xff0c;它不仅能够提供…

初阶数据结构【2】--顺序表(详细且通俗易懂,不看一下吗?)

本章概述 线性表顺序表顺序表问题与思考彩蛋时刻&#xff01;&#xff01;&#xff01; 线性表 概念&#xff1a;一些在逻辑上成线性关系的数据结构的集合。线性表在逻辑上一定成线性结构&#xff0c;在物理层面上不一定成线性结构。常见的线性表&#xff1a;顺序表&#xff0…

学习文档(6)

Redis数据类型 Redis 常用的数据类型有哪些&#xff1f; Redis 中比较常见的数据类型有下面这些&#xff1a; 5 种基础数据类型&#xff1a;String&#xff08;字符串&#xff09;、List&#xff08;列表&#xff09;、Set&#xff08;集合&#xff09;、Hash&#xff08;散…

影楼即将倒闭!!!!stable diffusion comfyui制作:AI人像摄影专业工作流

最近我们在学习ComfyUI&#xff0c;并用它搭建的摄影写真工作流&#xff0c;只需几张照片即可生成可交付的艺术写真照。 AI写真有以下好处&#xff1a; 创意无限&#xff1a;AI写真可以创造出超越现实的场景和效果&#xff0c;为用户提供更多的创意空间。用户可以通过简单的输…

MySQL 读写分离

优质博文&#xff1a;IT-BLOG-CN 一、背景 随着机票业务不断增长&#xff0c;订单库的读性能遇到了挑战&#xff0c;因此对订单库进行读写分离操作。主要目的是提高数据库的并发性能和可扩展性。当系统的所有写操作效率尚可&#xff0c;读数据请求效率较低时&#xff0c;比如…

快速解决Windows端口被占用

检查占用的端口号,显示9210端口被占用 使用运行打开cmd&#xff0c;直接输入如下命令 netstat -ano | find "9210"可以看到 9210端口执行的进程是PID为26836 知道PID后打开电脑的任务管理器-详细信息,找到PID是26836的进程,可以看到是QQ,关掉就解决了

微软开源项目 Detours 详细介绍与使用实例分享

目录 1、Detours概述 2、Detours功能特性 3、Detours工作原理 4、Detours应用场景 5、Detours兼容性 6、Detours具体使用方法 7、Detours使用实例 - 使用Detours拦截系统库中的UnhandledExceptionFilter接口,实现对程序异常的拦截 C++软件异常排查从入门到精通系列教程…

路由通信 的 VLAN技术

一、VLAN基础 虚拟局域网&#xff08;Virtual Local Area Network&#xff0c;VLAN&#xff09; 根据管理功能、组织机构或应用类型对交换局域网进行分段而形成的逻辑网络。 交换机最多支持4094个VLAN&#xff0c;其中默认管理VLAN是VLAN1&#xff0c;不能创建&#xff0c;也…

Python爬虫使用示例-古诗词摘录

一、分析需求 目标地址&#xff1a; https://www.sou-yun.cn/Query.aspx?typepoem&id二、提取诗句 import os import re import requests import parsel#url https://www.sou-yun.cn/PoemIndex.aspx?dynastyTang&author14976&typeJie urlhttps://www.sou-yun.…

关于md5强比较和弱比较绕过的实验

在ctf比赛题中我们的md5强弱比较的绕过题型很多&#xff0c;大部分都是结合了PHP来进行一个考核。这一篇文章我将讲解一下最基础的绕过知识。 MD5弱比较 比较的步骤 在进行弱比较时&#xff0c;PHP会按照以下步骤执行&#xff1a; 确定数据类型&#xff1a;检查参与比较的两…

【文心智能体 | AI大师工坊】如何使用智能体插件,完成一款购物类智能体的开发,来体验一下我的智能体『科技君Tom』

目录 1.1、智能体运行效果1.2、创作灵感来源智能体平台拥有个人化且人性化的大致框架&#xff0c;可以让小白也能搭建出一个智能体其次是拥有丰富的插件&#xff0c;可以更加快速的得到自己想要的效果~ 1.3、如何制作智能体常见问题与解决方案关于人设与回复逻辑插件使用模型的…

【02】Windows特殊权限-Trustedinstaller

知识点&#xff1a; “TrustedInstaller” 是 Windows 操作系统中的一个特殊账户&#xff0c;用于管理和保护重要的系统文件。它是 Windows 模块安装程序 (Windows Modules Installer) 的一部分&#xff0c;负责安装、修改和删除 Windows 更新和可选组件。默认情况下&#xff…

【Java SE 】类和对象详解

&#x1f525;博客主页&#x1f525;&#xff1a;【 坊钰_CSDN博客 】 欢迎各位点赞&#x1f44d;评论✍收藏⭐ 目录 1&#xff0c; 面向对象认识 1.1 什么时面向对象 1.2 面向对象和面向过程 1.2.1 一个例子理解对象和过程 1. 对于电脑来说 2. 对于我们人来说 2. 类的定…

linux用户态条件变量和内核态完成变量

如果我们的线程要等一个条件满足之后才可以继续向下执行&#xff0c;这个条件不满足的话&#xff0c;就要等待这个条件。这种场景经常见到&#xff0c;比如我们使用recv接收网络数据的时候&#xff0c;或者使用epoll_wait来等待事件的时候&#xff0c;在默认情况下&#xff0c;…

双指针 — 复写零

目录 1. 题目解析 2. 算法讲解 1.算法原理 2.“异地”操作 3.“就地”操作 误解 正解 从后往前完成复写操作 找到最后一个复写的数 处理边界情况 3. 编写代码 正解顺序 1.找到最后一个复写的数 2.处理边界情况 3.从后往前完成复写操作 性能分析&#xff1a; …

【白话文通俗易懂搞明白并解决】跨域问题

文章目录 跨域出现的场景跨域的定义解决跨域的方法方法一&#xff1a;JSONP方法二&#xff1a;添加响应头方法三&#xff1a;通过nginx代理跨域 跨域过滤器代码示例 跨域出现的场景 在前后端分离项目中&#xff0c;经常会出现跨域问题&#xff0c;表现为&#xff1a; 当在浏览…