布隆过滤器原理介绍和典型应用案例

整理自己过去使用布隆过滤器的应用案例和理解

基本介绍

        1970年由布隆提出的一种空间效率很高的概率型数据结构,它可以用于检索一个元素是否在一个集合中,由只存0或1的位数组和多个hash算法, 进行判断数据   【一定不存在或者可能存在的算法】

如果这些bit数组 有任何一个0,则被判定的元素一定不在;  如果都是1则被检元素很可能在

对比bitmap位图,布隆过滤器适合更多类型元素,通过hash值转换

原理:将元素添加到一个bitmap数组中,每个散列函数将元素映射到bitmap数组中的一个位置。如果该位置已经被占用,则将该位置置为1,否则置为0。当要查询一个元素是否存在时,只需要计算该元素的散列值,并检查bitmap数组中对应的位置是否已经被置为1。如果都是1,则该元素可能存在,否则肯定不存在。不存在的一定不存在,存在的不一定存在

优点:占用空间小,查询速度快,空间效率和查询时间都远远超过一般的算法。

缺点:有一定的误识别率,有一定的误识别率,即某个元素可能存在,但实际上并不存在。删除困难,因为无法确定某个位置是由哪个元素映射而来的。

 在线案例:Bloom Filters

布隆过滤器存在误判率,数组越小,所占的空间越小,误判率越高;如果要降低误判率,则数组越长,但所占空间越大
最大限度的避免误差, 选取的位数组应尽量大, hash函数的个数尽量多, 但空间占用的浪费和性能的下降
业务选择的时候, 需要误判率与bit数组长度和hash函数数量的平衡
布隆过滤器不能直接删除元素,因为所属的bit可能多个元素有使用
如果要删除则需要重新生成布隆过滤器,或者把布隆过滤器改造成带引用计数的方式 

应用场景

解决海量数据下非精确过滤的业务场景 

1)垃圾邮件解决方案(垃圾短信、黑名单同理)

        收集一组具有特定特征的垃圾邮件样本,这些样本可以是文本内容或其他特征,比如发件人、收件人等,将这些样本的特征信息进行哈希处理,并将处理后的结果存储在布隆过滤器中。接下来,当有新的电子邮件到达时,将该邮件的特征信息也进行哈希处理,并且与布隆过滤器中的信息进行比较。如果布隆过滤器中存在该邮件的特征信息,则判断该邮件为垃圾邮件;如果不存在,则判断该邮件为正常邮件

2)解决缓存穿透解决方案

        什么是缓存穿透(查询不存在数据),查询一个不存在的数据,由于缓存是不命中的,如发起为id为“-1”不存在的数据。如果从存储层查不到数据则不写入缓存,导致这个不存在的数据每次请求都要到存储层去查询,大量查询不存在的数据,可能DB就挂掉了,是黑客利用不存在的key频繁攻击应用的一种方式。

       方案就是将所有要【缓存的数据】经过处理后存储布隆过滤器中,即对应的bit上是1,当外部请求发起时,首先会把请求的参数通过哈希算法处理,获得相应的哈希值;根据哈希值计算出位数组中的位置。

如果全部计算的hash值对于的bit存储都是1,则表示数据在合理中,从缓存读出(缓存失效则从数据库中取出);

如果计算的hash值对于的bit存储存在一个是0或以上,则表示这条数据不合理,直接返回数据不存在,不查缓存和数据库,如果布隆过滤器认为值不存在,那么值一定是不存在的,无需查询缓存也无需查询数据库;

3)爬虫URL去重解决方案

        需求:大量的网页爬取,通过解析已经爬取页面中的网页链接,然后再爬取这些链接对应的网页,同一个网页链接有可能被包含在多个页面中,会导致爬虫在爬取的过程中,重复爬取相同的网页;

        方案:创建布隆过滤器,根据业务数据量设置位数组的大小,将位数组全部设置为0;
将每个URL地址通过哈希算法处理,获得相应的哈希值;
根据哈希值计算出位数组中的位置,将位数组中的位置设置为1;
当新的URL地址进入时,重复上述步骤计算出对应的位置,检查位数组中的位置是否为0,如果是0,则表示该URL地址一定没被爬取过;
如果URL地址不存在,经过爬虫处理后,则将其对应的位置设置为1,以表示该URL地址已经存在;
重复上述步骤,直到所有的URL地址都处理完毕,完成去重。

POM 依赖
<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope></dependency><dependency><groupId>org.apache.commons</groupId><artifactId>commons-lang3</artifactId><version>3.12.0</version></dependency><dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>31.1-jre</version></dependency></dependencies>
 @Testpublic void testGeneUrl() {try{File file = new File("urls.txt");if (!file.exists()) {file.createNewFile(); // 创建新文件,有同名的文件的话直接覆盖}FileOutputStream fos = new FileOutputStream(file, true);OutputStreamWriter osw = new OutputStreamWriter(fos);BufferedWriter bw = new BufferedWriter(osw);StringBuilder builder = new StringBuilder();for (int i = 0; i < 5000000; i++) {String name = RandomStringUtils.randomAlphabetic(5);String fileName = "https://www." + name + ".com" + i + "\n";builder.append(fileName);}bw.write(String.valueOf(builder));bw.newLine();bw.flush();bw.close();osw.close();fos.close();} catch (FileNotFoundException e1) {e1.printStackTrace();} catch (IOException e2) {e2.printStackTrace();}}

//参数一: 指定布隆过滤器中存的是什么类型的数据,有 IntegerFunnel,LongFunnel,StringCharsetFunnel
//参数二: 预期需要存储的数据量
//参数三: 误判率,默认是 0.03
BloomFilter.create(Funnels.stringFunnel(Charset.forName("UTF-8")), 5000000, 0.01);

 4)分库分表下手机号重复注册解决方案

        一般业务里面的partitionKey是不可变动的,所以不能用手机号作为分片键(换手机号需求是存在的),所以业务里面的分片键,多数是固定的业务id,比如user_id

创建布隆过滤器,根据业务数据量设置位数组的大小,将位数组全部设置为0;
把要注册的手机号通过通过哈希算法处理,获得相应的哈希值;
根据哈希值计算出位数组中的位置,如果对应的位数组中的位置有存在0,则一定是未注册的
如果经过多个hash函数处理,对应的位数组中都是1,则认为是注册过的
最后如果用户注册成功后,将位数组中的位置设置为1

@Beanpublic Set set() throws IOException {Set<String> set = new LinkedHashSet<>();FileInputStream inputStream = new FileInputStream(new File("urls.txt"));InputStreamReader streamReader = new InputStreamReader(inputStream);BufferedReader reader = new BufferedReader(streamReader);String line = null;while (true) {line = reader.readLine();if (line != null) {set.add(line);} else {break;}}inputStream.close();return set;}@Beanpublic BloomFilter bloomFilter() throws IOException {BloomFilter bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.forName("UTF-8")), 5000000, 0.01);FileInputStream inputStream = new FileInputStream(new File("urls.txt"));InputStreamReader streamReader = new InputStreamReader(inputStream);BufferedReader reader = new BufferedReader(streamReader);String line = null;while (true) {line = reader.readLine();if (line != null) {bloomFilter.put(line);} else {break;}}inputStream.close();return bloomFilter;}@RestController
@RequestMapping("/api")
public class FilterController {@Autowiredprivate BloomFilter<String> bloomFilter;@Autowiredprivate Set set;@GetMapping("/bloom")public String list() throws IOException {//判断是否包含这个内容if (bloomFilter.mightContain("https://www.dhVrX.com5")) {return "命中了";} else {return "没命中";}}@GetMapping("/set")public String set() {if (set.contains("httssps://www.shncb.com999663")) {return "命中了";} else {return "没命中";}}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/282338.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

内容检索(2024.03.22)

随着创作数量的增加&#xff0c;博客文章所涉及的内容越来越庞杂&#xff0c;为了更为方便地阅读&#xff0c;后续更新发布的文章将陆续在此汇总并附上原文链接&#xff0c;感兴趣的小伙伴们可持续关注文章发布动态&#xff01; 本期更新内容&#xff1a; 1. 真实案例分享--E…

C#,人工智能,机器学习,聚类算法,训练数据集生成算法、软件与源代码

摘要:本文简述了人工智能的重要分支——机器学习的核心算法之一——聚类算法,并用C#实现了一套完全交互式的、可由用户自由发挥的,适用于聚类算法的训练数据集生成软件——Clustering。用户使用鼠标左键(拖动)即可生成任意形状,任意维度,任意簇数及各种数据范围的训练数…

【python】flask请求钩子,主动抛出异常与异常捕获

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

综合实验---Web---进阶版

目录 实验配置&#xff1a; 1.PHP调整主配置文件时&#xff0c;修改文件内容 1.原内容调整(在编译安装的情况下) 2.调整如下 3.没有调整的&#xff0c;根据之前配置就行 2.配置Nginx支持PHP解析 1.原内容如下 2.调整如下 3.验证PHP测试页 1.原内容如下 2.调整如下 4…

Vant4:自动导入样式无效问题

今天前端小伙伴使用了Vant4&#xff0c;发现了一个奇怪的问题&#xff1a;按照Vant官方文档&#xff0c;按需引入组件样式&#xff08;Vite 的项目&#xff09;&#xff1a; 安装插件 # 通过 npm 安装 npm i vant/auto-import-resolver unplugin-vue-components unplugin-aut…

Linux——du, df命令查看磁盘空间使用情况

一、实现原理&#xff1a; df 命令的全称是Disk Free &#xff0c;显而易见它是统计磁盘中空闲的空间&#xff0c;也即空闲的磁盘块数。它是通过文件系统磁盘块分配图进行计算出的。 du 命令的全称是 Disk Used &#xff0c;统计磁盘有已经使用的空间。它是直接统计各文件各目…

金融知识分享系列之:支撑阻力

金融知识分享系列之&#xff1a;支撑阻力 一、支撑阻力原理二、支撑阻力作用1.识别市场资金的预期2.作为入场和平仓的重要参考 三、寻找支撑阻力四、延伸思考五、支撑阻力总结 一、支撑阻力原理 支撑阻力核心要素&#xff1a; 锚定效应订单驱动 支撑阻力原理&#xff1a; 市…

产品经理面试如何自我介绍?

金三银四求职季&#xff0c;你是不是也有面试的冲动&#xff01;但面试并不是头脑一热就能取得好结果&#xff0c;在此之前&#xff0c;必须得有周全的准备&#xff0c;才能应对好面试官的“连环问”&#xff01; 所以&#xff0c;今天这篇产品经理面试干货文章&#xff0c;别…

数据结构--链表刷题(一)快慢指针

1.快慢指针 先看一道简单的题目&#xff1a;返回中间结点 这道题有一个最朴素的做法就是先遍历一边链表&#xff0c;设置计数器求出链表长度&#xff0c;再重新走1/2的链表长度&#xff0c;即可返回中间节点 // 第二种解法 //这种解法需要遍历两次链表ListNode cur1 head;int…

Git基础(24):分支回退

前言 将分支回退到之前的某个版本 开发中&#xff0c;可能开发某个功能不需要了&#xff0c;或者想要回退到之前历史的某个commit&#xff0c; 放弃后来修改的内容。 放弃已修改的内容 如果未提交&#xff0c;直接使用 git revert分支回退到指定commit 操作前的分支网络图…

Git版本管理--远程仓库

前言&#xff1a; 本文记录学习使用 Git 版本管理工具的学习笔记&#xff0c;通过阅读参考链接中的博文和实际操作&#xff0c;快速的上手使用 Git 工具。 本文参考了引用链接博文里的内容。 引用: 重学Git-Git远程仓库管理_git remote add origin-CSDN博客 Git学习笔记&am…

【数据结构】选择排序

大家好&#xff0c;我是苏貝&#xff0c;本篇博客带大家了解选择排序&#xff0c;如果你觉得我写的还不错的话&#xff0c;可以给我一个赞&#x1f44d;吗&#xff0c;感谢❤️ 目录 一. 基本思想二. 直接选择排序 一. 基本思想 每一次从待排序的数据元素中选出最小&#xff…

【GPT概念-03】:人工智能中的注意力机制

说明 注意力机制生成分数&#xff08;通常使用输入函数&#xff09;&#xff0c;确定对每个数据部分的关注程度。这些分数用于创建输入的加权总和&#xff0c;该总和馈送到下一个网络层。这允许模型捕获数据中的上下文和关系&#xff0c;而传统的固定序列处理方法可能会遗漏这…

android adb 实时画面 和操作

1. 下载 scrcpy 建议 windows10 用户 点击链接下载 不然可能会提示缺少部分 dll https://github.com/Genymobile/scrcpy/releases/download/v2.3.1/scrcpy-win32-v2.3.1.ziphttps://github.com/Genymobile/scrcpy/releases/download/v2.3.1/scrcpy-win32-v2.3.1.zip windo…

LVGL:拓展部件——键盘 lv_keyboard

一、概述 此控件特点&#xff1a; 特殊Button矩阵&#xff1a;lv_keyboard 本质上是一个经过定制的按钮矩阵控件。每个按钮都可以独立触发事件或响应。预定义的键映射&#xff1a;lv_keyboard 自带了一套预设的按键布局和对应的字符映射表&#xff0c;开发者可以根据需要选择…

Vue2在一个页面内动态切换菜单显示对应的路由组件

项目的需求是在一个页面内动态获取导航菜单&#xff0c;导航菜单切换的时候显示对应的路由页面&#xff0c;类似于tab切换的形式&#xff0c;切换的导航菜单和页面左侧导航菜单是同一个路由组件&#xff0c;只是放到了一个页面上&#xff0c;显示的个数不同&#xff0c;所有是动…

JS加密解密之字符编码知识

在前端开发中&#xff0c;字符编码是一个至关重要的概念&#xff0c;特别是在数据传输、加密和解密等方面。JavaScript作为一种常用的脚本语言&#xff0c;在处理字符编码时也有其独特之处。本文将详细介绍JavaScript中的字符编码知识&#xff0c;包括字符编码的分类和相关案例…

kubernetes K8s的监控系统Prometheus安装使用(一)

简单介绍 Prometheus 是一款基于时序数据库的开源监控告警系统&#xff0c;非常适合Kubernetes集群的监控。Prometheus的基本原理是通过HTTP协议周期性抓取被监控组件的状态&#xff0c;任意组件只要提供对应的HTTP接口就可以接入监控。不需要任何SDK或者其他的集成过程。这样做…

JsonUtility.ToJson 和UnityWebRequest 踩过的坑记录

项目场景&#xff1a; 需求&#xff1a;我在做网络接口链接&#xff0c;使用的unity自带的 UnityWebRequest &#xff0c;数据传输使用的json&#xff0c;json和自定义数据转化使用的也是unity自带的JsonUtility。使用过程中发现两个bug。 1.安全验证失败。 报错为&#xff1a…

JavaEE 初阶篇-深入了解进程与线程(常见的面试题:进程与线程的区别)

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 进程概述 2.0 线程概述 2.1 多线程概述 3.0 常见的面试题&#xff1a;谈谈进程与线程的区别 4.0 Java 实现多线程的常见方法 4.1 实现多线程方法 - 继承 Thread 类…