Lucene 倒排索引

倒排索引是什么?

【定义】倒排索引(Inverted Index)是一种用于信息检索的数据结构,尤其适用于文本搜索。它与传统索引的主要区别在于,传统索引是根据文档来查找词语的位置,而倒排索引则是根据词语来查找文档。倒排索引在搜索引擎、数据库系统以及自然语言处理等领域有着广泛的应用。

倒排索引的结构包含:

  • 词项索引(term index):存放在 .tip 文件中。存放 FST 的公共前缀和公共后缀。
  • 词项字典:存储的关键词,使用 FST(Finite State Transducer) 数据结构压缩。存放在 .tim 文件中。后缀词块,倒排表的指针。
  • 倒排表:存储的是:包含当前词项的文档 ID 有序列表,是 int 型。int 的最大值是 2^32 ,所以分片存储的文档是有上限的。存放在 .doc 文件中。

由于词典的 size 会很大,全部装载到 heap 里不现实,因此Lucene为词典做了一层前缀索引(Term Index),这个索引在Lucene4.0以后采用的数据结构是FST (Finite State Transducer)。 这种数据结构占用空间很小,Lucene 打开索引的时候将其全量装载到内存中,加快磁盘上词典查询速度的同时减少随机磁盘访问次数

FST 可以理解为前缀树的变种,FST 不但利用公共前缀,还是利用了公共后缀。FST 的对空间的空间的压缩还大。

Lucene4+ 开始大量使用数据结构:FST(Finite State Transducer)

FST 优点:

  1. 空间占用小,通过对字典中单词前缀和后缀的重复利用,压缩存储空间。
  2. 查询速度快。时间复杂度: O(len(str))
term indexterm dictionary(词项字段)Posting list(倒排表)标记匹配
小米1,2,4
手机1,2,3
NFC4,5

索引结构

倒排索引核心算法

倒排表的压缩算法

Posting list 使用的压缩算法:(高效压缩、快速的编码解码)

  • FOR(Frame Of Reference):针对稠密数组压缩。稠密的定义:数组中数据差值比较小

    • 核心思想:用减法来削减数值大小,从而达到降低空间存储。
  • RBM(Roaring Bit Map):针对稀疏数组压缩。稀疏的定义:数组中数据差值比较大

    • 解决 FOR 算法缺陷:如果减法的结果差值,依然很大。
    • 核心思想:通过除法来缩减数值大小,但是并不是直接的相除。将一个数拆成高 16 位和低 16 位。

FOR

如下图:Posting list 中是升序排列的 6 个 int 数据。

压缩前数据所占空间为:4 byte * 6 = 24 byte

接下来看 FOR 的压缩过程

  1. 第一位数保留原始数据,从第二数起,保留与前一位数的差值,如下图 Deltas list
  2. 根据 Deltas list 中数据稠密程度划分出小数组(自动划分)
    1. 【目的】小数组内每个数据占用的空间,都是有小数组内最大的数据所决定。划分小数组的目的,也是为了进一步压缩空间。避免一个大数据,导致所有数据都必须占用这么大的空间。
  3. 根据每个小数组中的最大值,确定每个数据的占用空间
    1. 左边数组的最大值为 277,至少占用 8 个 bit: 2 8 = 512 2^8= 512 28=512。那么左边数组需要占用:2 * 8bit = 16 bit
    2. 右边数组的最大值为 30,至少占用 5 个bit: 2 5 = 32 2^5= 32 25=32。那么右边数组需要占用:4 * 5bit = 20 bit
  4. 每个小数组中每个数占用的空间也需要记录一下,解码时需要使用。下图 8 bit 和 5bit 也各需要一个 1 byte 的空间存储
  5. 程序中的数据都是使用字节存储的。因此需要将 bit 转换为字节。16 bit = 2 byte;20 bit = 3 byte。20 bit 必须用 3 byte 存储。
  6. 因此最终压缩后数据占用空间为:1 byte + 2 byte + 3 byte + 1 byte = 7 byte。空间压缩了 2/3

RBM

RBM(Roaring Bit Map):针对稀疏数组压缩。稀疏的定义:数组中数据差值比较大。

核心思想:通过除法来缩减数值大小,但是并不是直接的相除。将一个数拆成高 16 位和低 16 位。

如下图:posting list 的差值也非常大。可以使用 RBM 算法进行压缩。

Posting list 中是升序排列的 6 个 int32 数据。

  1. 通过除以 2 16 = 65536 2^{16}=65536 216=65536 ,获取到高 16 和低 16 两个 short 数
  2. 以高 16 数给key,以低 16 数为 value,构建倒排列表

Short[] 数组存放高位,相同高位存放 value。

支撑的 container 的类型:

  1. ArrayContainer:container 中的数据以 short 数组形式存储。

    1. container 中的数据是升序且不重复的。并且最多有 65536 个数。因此最大占用空间为:(65536*16/2)/1024=128KB。

    2. 当 value 小于2096 个数或者 8KB时,使用 ArrayContainer。否则使用 BitMapContainer。

  2. BitMapContainer:container 中的数据用 bitMap 存储。

    1. bitMap:要支持 65536 位的数据存储,占用空间为:(65536/8)/1024 = 8KB

    2. bitMap 占用的空间是固定,无论多少数据都是 8KB。

      1. 因此但数据量小于 2096 个时,使用 ArrayContainer 比较合适。

      2. 因此但数据量大于 2096 个时,使用 BitMapContainer 比较合适。

  3. RunContainer:此 container 适合存储连续数据。如下图:有 100w 个连续数据,那么直接存储一个范围即可。

词项索引的压缩算法

【定义】FST 是 Finite State Transducer 的缩写,是一种计算模型,它是有限状态自动机(Finite State Automaton, FSA)的一种扩展。FST 可以看作是一个双向的自动机,它在读取输入的同时产生输出。

【用途】FST 常用于自然语言处理、编译器设计、模式识别等领域,用于处理和转换数据,例如文本的自动翻译、语音识别与合成等。

与前缀树相比,FST 不但能够共享前缀,还能共享后缀。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/447066.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

穷举vs暴搜vs深搜vs回溯vs剪枝(一)

文章目录 全排列子集找出所有子集的异或总和再求和全排列 II电话号码的字母组合 全排列 题目:全排列 思路 通过深度优先搜索的方式,不断枚举每个数在当前位置的可能性,然后回溯到上一个状态,直到枚举完所有可能性得到正确的结果 r…

双11购物节,淘宝、京东薅羊毛~红包攻略

紧急通知:今年的双11购物节相比去年又提前了!为了迎接这一购物盛宴,各大电商平台纷纷推出了红包活动,其中京东和淘宝的红包活动尤为引人注目。以下是小编为各位消费者精心整理的红包攻略。 淘宝双11超级红包 天猫双11超级红包&a…

无人直播自动化回复客户咨询

我们插件是根据页面元素变动进行自动化操作的,想要实现网页版自动化,必须了解html以及dom结构,还有xpath定位方法。 各大直播后台页面结构不一样,所以要进行兼容处理,我们一个插件支持以下直播或客服平台 唯一客服浏…

【机器学习】特征降维|低方差过滤|主成分分析PCA|相关系数法|皮尔逊相关系数|斯皮尔曼相关系数

特征降维 特征降维 为什么要进行特征降维? 特征对训练模型非常重要,当用于训练的数据集包涵一些不重要的特征时,可能会导致模型泛化性能不加 eg:某些特征的取值较为接近,其包含的信息较少eg:希望特征独立存在对预测产生影响,两…

wsl环境下安装Ubuntu,并下载MySQL5.7

安装操作需root权限,切换root用户有两种方式: 1-通过 sudo su - ,切换到root用户(登录后长期有效)。 2-在每一个命令前加上sudo,临时提升权限(仅对一条命令有效)。 1、下载apt仓库…

轮椅拐杖残疾人检测数据集 4400张 轮椅拐杖 标voc yolo

轮椅拐杖残疾人检测数据集 4400张 轮椅拐杖 标voc yolo 2 分类名: (图片张数, 标注个数) whee Ichair: (3766, 4460) person_ crutch: (682, 693) 总数: (4448, 5153) . 总类(nc): 2类 轮椅拐杖残疾人检测数据集介绍 数据集概述…

Laravel Filament 如何配置多语言支持

演示 一、安装拓展包outerweb/filament-translatable-fields composer require outerweb/filament-translatable-fields配置模型 该套件包含一个名为 HasTranslations 的特性,用于使 Eloquent 模型具备多语言功能。翻译值以 JSON 格式存储,并不需要额外…

【数据采集工具】Flume从入门到面试学习总结

国科大学习生活(期末复习资料、课程大作业解析、大厂实习经验心得等): 文章专栏(点击跳转) 大数据开发学习文档(分布式文件系统的实现,大数据生态圈学习文档等): 文章专栏(点击跳转&…

ROS2 Jazzy(二) ROS相关工具 概念

以下demo都是出自官方教程urdf_tutorial Link CLI ros2命令行,可以使用ros2 --help来查看指南 ros2 --help # 包括ros2 pkg/topic等等,基础且常用VScode vscode老朋友了,但是要配置好适合ros2开发的vscode,还是有点麻烦的。 配置C语言相关…

ChatTTS在Windows电脑的本地部署与远程生成音频详细实战指南

文章目录 前言1. 下载运行ChatTTS模型2. 安装Cpolar工具3. 实现公网访问4. 配置ChatTTS固定公网地址 前言 本篇文章主要介绍如何快速地在Windows系统电脑中本地部署ChatTTS开源文本转语音项目,并且我们还可以结合Cpolar内网穿透工具创建公网地址,随时随…

使用scss生成旋转圆圈

图片 html代码&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title>…

Windows下MYSQL8.0如何恢复root权限

误操作把root权限清掉导致数据库无法登录&#xff08;确实很难受&#xff09;&#xff0c;在网上找了很多方法&#xff0c;发现没有很行之有效的方法&#xff0c;在多方尝试终于找到了适合敏感宝宝体质的方法。 C:\Users\Administrator>mysql -u root -P3307 ERROR 1045 (2…

通信工程学习:什么是USB通用串行总线

USB&#xff1a;通用串行总线 USB&#xff0c;全称Universal Serial Bus&#xff08;通用串行总线&#xff09;&#xff0c;是一种外部总线标准&#xff0c;用于规范电脑与外部设备的连接和通讯。以下是关于USB的详细介绍&#xff1a; 一、USB的定义与特点 USB的定义&#xff…

rtsp协议:rtsp协议参数介绍

目的&#xff1a; 实时流协议&#xff08;RTSP&#xff09;用于建立和控制单个或多个时间同步的连续媒体流&#xff0c;例如音频和视频。RTSP 通常不负责实际传输这些连续的媒体流&#xff0c;但可以将连续媒体流与控制流进行交错传输&#xff08;参见第 10.12 节&#xff09;。…

Xcode报错:Undefined symbols,Linker command failed with exit code1

这种编译报错点击Xcode左侧的小红叉这两行点击没反应&#xff0c;不知道具体报错原因怎么弄&#xff1f; 解决办法&#xff1a; 第一步&#xff1a;点周Xcode左侧工具栏的编译log日志按钮 第二步&#xff1a;第一步点击完Xcode左侧出现了编译历史列表&#xff0c;可以看到有报…

每个程序员都应该了解的硬件知识

作者:shizhaoyang 在追求高效代码的路上,我们不可避免地会遇到代码的性能瓶颈。为了了解、解释一段代码为什么低效,并尝试改进低效的代码,我们总是要了解硬件的工作原理。于是,我们可能会尝试搜索有关某个架构的介绍、一些优化指南或者阅读一些计算机科学的教科书(如:计…

taozige/Java语言的Netty框架+云快充协议1.5+充电桩系统+新能源汽车充电桩系统源码

云快充协议云快充1.5协议云快充1.6云快充协议开源代码云快充底层协议云快充桩直连桩直连协议充电桩协议云快充源码 介绍 云快充协议云快充1.5协议云快充1.6云快充协议开源代码云快充底层协议云快充桩直连桩直连协议充电桩协议云快充源码 软件架构 1、提供云快充底层桩直连协…

Kubernetes--深入理解Service与CoreDNS

文章目录 Service功能Service 的常见使用场景 Service的模式iptablesIPVS Service类型ClusterIPNodePortLoadBalancerExternalName Service的工作机制EndpointEndpoint 与 Service 的关系Endpoint 的工作原理命令操作 CoreDNSCoreDNS 的配置CoreDNS 的典型插件Corefile 示例Cor…

msvcr100.dll丢失的解决方法,如何安全下载 msvcr100.dll 文件:完全指南

在使用 Windows 操作系统的电脑上运行某些程序或游戏时&#xff0c;可能会遇到一个常见的错误消息&#xff0c;提示缺少 msvcr100.dll 文件。这个 DLL 文件是 Microsoft Visual C 2010 Redistributable Package 的一部分&#xff0c;对于运行依赖于 C 的软件来说至关重要。如果…

图文深入理解Oracle DB Scheduler(续)-调度的创建

List item 今天是国庆假期最后一天。窗外&#xff0c;秋雨淅淅沥沥淅淅下个不停。继续深宅家中&#xff0c;闲来无事&#xff0c;就多写几篇博文。 本篇承接前一篇&#xff0c;继续图文深入介绍Oracle DB Scheduler。本篇主要介绍调度的创建。 1. 创建基于时间的作业 • 可以…