【C++篇】位图与布隆过滤器

目录

一,位图

1.1,位图的概念

1.2,位图的设计与实现

1.5,位图的应用举例

1.4,位图常用应用场景

 二,布隆过滤器

2.1,定义:

 2.2,布隆过滤器的实现

2.3, 应用场景

三,海量数据处理问题

3.1,10亿个整数求最大的前100个数

3.2,给两个文件,分别有100亿个query(查询字符串),我们只有1G内存,如何找到两个文件交集?


一,位图

1.1,位图的概念

位图是一种高效的数据结构,通过二进制位(0或1)的数组来高效存储和操作数据,常用于标记状态或处理大规模数据。

位图的优缺点:

优点:增删查改快,节省空间

缺点:只适用于整形

核心特性

  • 空间高效:每个元素仅占1 bit,适合处理海量数据(如去重、统计)。

  • 快速操作:支持位运算(与、或、异或等)进行高效查询和修改。

1.2,位图的设计与实现

位图本质是一个直接定址法的哈希表,每个整型值映射一个bit位。

 核心接口:

对于一个 整形值x。计算x对应的bit位:i=x/32,j=i%32,得到x在第i个整形的第j个bit位。

对于一个 整形值x。要将它放入到数据中,只需将x对应的bit位由0置为1 

对于一个 整形值x,将它从数据中删除,只需将x对应的bit位由1置为0.

判断一个值x存不存在

代码:

//N空间大小,比特位
template<size_t N>
class bitset
{
public:bitset(){_bs.resize(N / 32 + 1);}//将x位置的bit值 置为1void set(const int& x){//第i个整型的第j个bit位size_t i = x / 32;size_t j = x % 32;_bs[i] |= (1 << j);}//删除x位置//将x位置的bit值 置为0void reset(const int& x){//第i个整型的第j个bit位size_t i = x / 32;size_t j = x % 32;_bs[i] &= (~(1 << j));}//判断x值在不在bool test(const int& x){//第i个整型的第j个bit位size_t i = x / 32;size_t j = x % 32;return _bs[i] & (1 << j);}
private:std::vector<int> _bs;
};

1.5,位图的应用举例

(1) 给40亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中。

40亿数据量太大,如果将40亿个int数据变量完全存储到内存中 可不得了,可以采用40亿个位来存储这些数据的状态。

首先遍历这40亿个数,在位图中将对应的位置为1,再对于给出的数,进行判断即可。

(2) 在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。

使用2个位图,每个数分配2个位图,用这两个位图来表示存储状态,00表示不存在,01表示出现一次,10表示多次,11无意义

代码示例:


    template<size_t N>
    class twobitset
    {
    public:
        //添加x
        void set(const int& x)
        {
            bool bit1 = bs1.test(x);
            bool bit2 = bs2.test(x);
            //出现0次->出现1次
            if (!bit1 && !bit2)//00->01
            {
                bs2.set(x);
            }
            //出现1次->出现2次
            else if (!bit1 && bit2)//01-> 10
            {
                bs1.set(x);
                bs2.reset(x);
            }
            //出现2次->出现多次
            else if (bit1 && !bit2)//10 ->11
            {
                bs2.set(x);
            }
        }
        //获取x的出现次数
        int getcount(const int& x)
        {
            bool bit1 = bs1.test(x);
            bool bit2 = bs2.test(x);

            if (!bit1 && !bit2)//00
            {
                return 0;
            }
            else if (!bit1 && bit2)//01
            {
                return 1;
            }
            else if (bit1 && !bit2)//10 
            {
                return 2;
            }
            else
            {
                return 3;
            }
        }
    private:
        bitset<N> bs1;
        bitset<N> bs2;
    };

1.4,位图常用应用场景

  • 去重与存在性检查
    例如,统计10亿用户中哪些已注册,仅需约120MB内存(109÷8≈125MB109÷8≈125MB)。

  • 布隆过滤器(Bloom Filter)
    利用多个哈希函数和位图实现概率型数据存在性判断。

  • 数据库索引
    快速筛选满足条件的记录(如性别为“男”的用户)。

  • 内存管理
    操作系统用位图标记内存页的分配状态。

 二,布隆过滤器

2.1,定义:

有一些场景,由大量数据需要判断是否存在,而这些数据不是整形,比如string,就不能使用位图了,这些场景就需要布隆过滤器来解决。利用多个哈希函数和位图实现,哈希函数内容见上篇文章【哈希表】。

 核心原理

  • 位数组(Bit Array):长度为 m 的二进制数组,初始全为0。

  • 哈希函数集合:k个独立的哈希函数,每个函数将元素映射到位数组的某个位置。

以string类型为例:

而这种冲突是无法避免的,因为位图中只存储了状态,即0或1,无法改变。所以我们只能做到降低冲突概率,对于一个字符串,让它映射到多个位置上。经过k个哈希函数的转化,映射到k个位置,将这k位置都置为1。在查找时也是如此,经过k个哈希函数,k个位置都为1,才能说明该数据存在,否则就是与其他位置存在冲突,导致几个位置位1,几个位置为0,说明该数据不存在。

布隆过滤器优缺点:

 2.2,布隆过滤器的实现

下图中 :

k代表哈希函数的个数

m为布隆过滤器的大小

n为插入的元素个数。

通过观察误判率的公式可得:在k一定的情况下,当n增加时,误判率增加,当m增加时,误判率越小。也就是哈希函数一定的情况下,插入元素越多时,误判率增加,布隆过滤器长度越长时,误判率减小。令X=m/n,可得,X越大,误判率越小。

//哈希函数
struct HashFuncBKDR
{// @detail 本 算法由于在Brian Kernighan与Dennis Ritchie的《The CProgramming Language》// 一书被展示而得 名,是一种简单快捷的hash算法,也是Java目前采用的字符串的Hash算法累乘因子为31。size_t operator()(const std::string& s){size_t hash = 0;for (auto ch : s){hash *= 31;hash += ch;}return hash;}
};
struct HashFuncAP
{// 由Arash Partow发明的一种hash算法。  size_t operator()(const std::string& s){size_t hash = 0;for (size_t i = 0; i < s.size(); i++){if ((i & 1) == 0) // 偶数位字符{hash ^= ((hash << 7) ^ (s[i]) ^ (hash >> 3));}else              // 奇数位字符{hash ^= (~((hash << 11) ^ (s[i]) ^ (hash >> 5)));}}return hash;}
};
struct HashFuncDJB
{// 由Daniel J. Bernstein教授发明的一种hash算法。 size_t operator()(const std::string& s){size_t hash = 5381;for (auto ch : s){hash = hash * 33 ^ ch;}return hash;}
};//布隆过滤器
//M布隆过滤器的长度
//N插入元素个数
//X=M/N 越大,误判率越小
template<size_t  N,size_t X=5,class k=string,class Hash1= HashFuncBKDR,class Hash2= HashFuncAP,class Hash3= HashFuncDJB>
class BloomFilter
{
public:void set(const k& key){size_t hash1 = Hash1()(key) % M;size_t hash2 = Hash2()(key) % M;size_t hash3 = Hash3()(key) % M;_bs.set(hash1);_bs.set(hash2);_bs.set(hash3);}//可能存在误判bool test(const k& key){//只要一个位置为0,就不存在size_t hash1 = Hash1()(key) % M;if (_bs.test(hash1) == 0)return false;size_t hash2 = Hash2()(key) % M;if (_bs.test(hash2) == 0)return false;size_t hash3 = Hash3()(key) % M;if (_bs.test(hash3) == 0)return false;return true;}
private:static const int M = N * X;bitset<M> _bs;
};

2.3, 应用场景

  1. 缓存穿透防护

        在分布式缓存系统中,布隆过滤器可以⽤来解决缓存穿透的问题。缓存穿透是指恶意用户请求⼀个不 存在的数据,导致请求直接访问数据库,造成数据库压力过⼤。布隆过滤器可以先判断请求的数据是 否存在于布隆过滤器中,如果不存在,直接返回不存在,避免对数据库的无效查询。
  2. 爬虫去重

       在爬虫系统中,为了避免重复爬取相同的URL,可以使⽤布隆过滤器来进行URL去重。爬取到的URL可 以通过布隆过滤器进行判断,已经存在的URL则可以直接忽略,避免重复的网络请求和数据处理。
  3. 对数据库查询提效:

      在数据库中,布隆过滤器可以用来加速查询操作。例如:一个app要快速判断一个电话号码是否注册 过,可以使用布隆过滤器来判断一个用户电话号码是否存在于表中,如果不存在,可以直接返回不存 在,避免对数据库进行无用的查询操作。如果在,再去数据库查询进行二次确认。
  4. 垃圾邮件过滤

       在垃圾邮件过滤系统中,布隆过滤器可以用来判断邮件是否是垃圾邮件。系统可以将已知的垃圾邮件 的特征信息存储在布隆过滤器中,当新的邮件到达时,可以通过布隆过滤器快速判断是否为垃圾邮件,从而提高过滤的效率。

布隆过滤器通过牺牲一定的准确性,在海量数据去重快速过滤等场景中展现了不可替代的优势,是分布式系统和大数据处理的基石技术之一。

三,海量数据处理问题

3.1,10亿个整数求最大的前100个数

本题是topk问题,用堆解决,建一个100个数的小堆,让这10亿个整数分别与堆顶元素比较,如果大于堆顶元素,就交换,再调整堆。最后最大的前100个就保存在小堆中。

3.2,给两个文件,分别有100亿个query(查询字符串),我们只有1G内存,如何找到两个文件交集?

解法一:使用布隆过滤器存储文件1,再遍历文件2,看布隆过滤器中是否存在,存在就是交集。

解法二:

哈希切分,首先内存的访问速度远大于硬盘,大文件放到内存搞不定,那么我们可以考虑切分为

文件,再放进内存处理。

本质是相同的query在哈希切分过程中,一定进入的同一个小文件Ai和Bi,不可能出现A中的的 query进入Ai,但是B中的相同query进入了和Bj的情况,所以对Ai和Bi进行求交集即可,不需要Ai 和Bj求交集。

 哈希切分的问题就是每个⼩⽂件不是均匀切分的,可能会导致某个小文件很大内存放不下。我们细 细分析⼀下某个小文件很⼤有两种情况:1.这个小文件中⼤部分是同一个query。2.这个小文件是 有很多的不同query构成,本质是这些query冲突了。针对情况1,其实放到内存的set中是可以放 下的,因为set是去重的。针对情况2,需要换个哈希函数继续二次哈希切分。所以我们遇到大 于1G小文件,可以继续读到set中找交集,若set.insert时抛出了异常(set插⼊数据抛异常只可能是 申请内存失败了,不会有其他情况),那么就说明内存放不下是情况2,换个哈希函数进行二次哈希切分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12204.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot的新闻资讯系统的设计与实现(源码+SQL脚本+LW+部署讲解等)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…

Spring Boot 2 快速教程:WebFlux处理流程(五)

WebFlux请求处理流程 下面是spring mvc的请求处理流程 具体步骤&#xff1a; 第一步&#xff1a;发起请求到前端控制器(DispatcherServlet) 第二步&#xff1a;前端控制器请求HandlerMapping查找 Handler &#xff08;可以根据xml配置、注解进行查找&#xff09; 匹配条件包括…

C基础寒假练习(2)

一、输出3-100以内的完美数&#xff0c;(完美数&#xff1a;因子和(因子不包含自身)数本身 #include <stdio.h>// 函数声明 int isPerfectNumber(int num);int main() {printf("3-100以内的完美数有:\n");for (int i 3; i < 100; i){if (isPerfectNumber…

react-bn-面试

1.主要内容 工作台待办 实现思路&#xff1a; 1&#xff0c;待办list由后端返回&#xff0c;固定需要的字段有id(查详细)、type(本条待办的类型)&#xff0c;还可能需要时间&#xff0c;状态等 2&#xff0c;一个集中处理待办中转路由页&#xff0c;所有待办都跳转到这个页面…

GRN前沿:利用DigNet从scRNA-seq数据中生成基于扩散的基因调控网络

1.论文原名&#xff1a;Diffusion-based generation of gene regulatory network from scRNA-seq data with DigNet 2.出版时间&#xff1a;2024.12.18 3.doi: 10.1101/gr.279551.124 摘要&#xff1a; 基因调控网络&#xff08;GRN&#xff09;在细胞内基因的身份和功能之间…

AnswerRocket:通过 AI 辅助简化分析

AnswerRocket是一家专注于人工智能驱动数据分析和商业智能的领先企业&#xff0c;其核心产品是一款增强型分析平台&#xff0c;旨在通过自然语言处理&#xff08;NLP&#xff09;、机器学习&#xff08;ML&#xff09;和生成式AI技术&#xff0c;简化复杂数据的分析过程&#x…

小程序设计和开发:如何研究同类型小程序的优点和不足。

一、确定研究目标和范围 明确研究目的 在开始研究同类型小程序之前&#xff0c;首先需要明确研究的目的。是为了改进自己的小程序设计和开发&#xff0c;还是为了了解市场趋势和用户需求&#xff1f;不同的研究目的会影响研究的方法和重点。例如&#xff0c;如果研究目的是为了…

我的AI工具箱Tauri版-ZoomImageSDXL全图超清放大TILE+SDXL

本教程基于自研的AI工具箱Tauri版进行ComfyUI工作流ZoomImageSDXL全图超清放大TILESDXL。 ZoomImageSDXL全图超清放大TILESDXL 借助ControlNet的Tile技术与SDXL大模型&#xff0c;该工具能够在放大图像的同时&#xff0c;精准还原细节和纹理&#xff0c;确保输出效果既清晰锐利…

Java设计模式:行为型模式→状态模式

Java 状态模式详解 1. 定义 状态模式&#xff08;State Pattern&#xff09;是一种行为型设计模式&#xff0c;它允许对象在内部状态改变时改变其行为。状态模式通过将状态需要的行为封装在不同的状态类中&#xff0c;实现对象行为的动态改变。该模式的核心思想是分离不同状态…

蓝桥与力扣刷题(234 回文链表)

题目&#xff1a;给你一个单链表的头节点 head &#xff0c;请你判断该链表是否为回文链表。如果是&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a;head [1,2,2,1] 输出&#xff1a;true示例 2&#xff1a; 输入&…

【面经】字节南京一面部分题目记录

南京字节一面题&#xff0c;可能因为项目不太匹配&#xff0c;全程八股比较多&#xff0c;也有两道手撕代码题&#xff0c;强度还是有的。为了方便大家学习&#xff0c;大部分答案由GPT整理&#xff0c;有些题给出了我认为回答比较好的博客链接。 文章目录 一、python2 和 pyth…

【C语言篇】“三子棋”

一、游戏介绍 三子棋&#xff0c;英文名为 Tic - Tac - Toe&#xff0c;是一款简单而经典的棋类游戏。游戏在一个 33 的棋盘上进行&#xff0c;两名玩家轮流在棋盘的空位上放置自己的棋子&#xff08;通常用 * 和 # 表示&#xff09;&#xff0c;率先在横、竖或斜方向上连成三个…

vscode软件操作界面UI布局@各个功能区域划分及其名称称呼

文章目录 abstract检查用户界面的主要区域官方文档关于UI的介绍 abstract 检查 Visual Studio Code 用户界面 - Training | Microsoft Learn 本质上&#xff0c;Visual Studio Code 是一个代码编辑器&#xff0c;其用户界面和布局与许多其他代码编辑器相似。 界面左侧是用于访…

【B站保姆级视频教程:Jetson配置YOLOv11环境(六)PyTorchTorchvision安装】

Jetson配置YOLOv11环境&#xff08;6&#xff09;PyTorch&Torchvision安装 文章目录 1. 安装PyTorch1.1安装依赖项1.2 下载torch wheel 安装包1.3 安装 2. 安装torchvisiion2.1 安装依赖2.2 编译安装torchvision2.2.1 Torchvisiion版本选择2.2.2 下载torchvisiion到Downloa…

于动态规划的启幕之章,借 C++ 笔触绘就算法新篇

注意&#xff1a;代码由易到难 P1216 [IOI 1994] 数字三角形 Number Triangles 题目链接&#xff1a;[IOI 1994] 数字三角形 Number Triangles - 洛谷 题目描述 观察下面的数字金字塔。 写一个程序来查找从最高点到底部任意处结束的路径&#xff0c;使路径经过数字的和最大。每…

分页按钮功能

前言 在前端开发中&#xff0c;分页功能是一个常见的需求&#xff0c;特别是当需要展示大量数据时&#xff0c;它能有效提升用户体验。该文章结合运用了HTML&#xff0c;CSS&#xff0c;JS实现网页的分页按钮功能&#xff0c;并且可以选择每页显示的条数试试更新总页数及显示当…

SAP HCM 回溯分析

最近总有人问回溯问题&#xff0c;今天把12年总结的笔记在这共享下&#xff1a; 12年开这个图的时候总是不明白是什么原理&#xff0c;教程看N次&#xff0c;网上资料找一大堆&#xff0c;就是不明白原理&#xff0c;后来为搞明白逻辑&#xff0c;按照教材的数据一样做&#xf…

gitea - fatal: Authentication failed

文章目录 gitea - fatal: Authentication failed概述run_gitea_on_my_pkm.bat 笔记删除windows凭证管理器中对应的url认证凭证启动gitea服务端的命令行正常用 TortoiseGit 提交代码备注END gitea - fatal: Authentication failed 概述 本地的git归档服务端使用gitea. 原来的用…

X Window System 架构概述

X Window System 架构概述 1. X Server 与 X Client ​ 这里引入一张维基百科的图&#xff0c;在Linux系统中&#xff0c;若用户需要图形化界面&#xff0c;则可以使用X Window System&#xff0c;其使用**Client-Server**架构&#xff0c;并通过网络传输相关信息。 ​ ​ X…

Linux防火墙基础

一、Linux防火墙的状态机制 1.iptables是可以配置有状态的防火墙&#xff0c;其有状态的特点是能够指定并记住发送或者接收信息包所建立的连接状态&#xff0c;其一共有四种状态&#xff0c;分别为established invalid new related。 established:该信息包已建立连接&#x…