【Elasticsearch】Elasticsearch倒排索引详解

文章目录

  • 📑引言
  • 一、倒排索引简介
  • 二、倒排索引的基本结构
  • 三、Elasticsearch中的倒排索引
    • 3.1 索引和文档
    • 3.2 创建倒排索引
    • 3.3 倒排索引的存储结构
    • 3.4 词典和倒排列表的优化
  • 四、倒排索引的查询过程
    • 4.1 过程
    • 4.2 示例
  • 五、倒排索引的优缺点
    • 5.1 优点
    • 5.2 缺点
  • 六、倒排索引在实际应用中的优化
    • 6.1 分析器配置
    • 6.2 分片和副本
    • 6.3 缓存机制
    • 6.4 数据分层存储

📑引言

Elasticsearch是一个基于Lucene的分布式搜索引擎,广泛应用于全文搜索、日志分析和实时数据分析等领域。其核心优势在于其强大的搜索性能,而这种性能的基础之一就是倒排索引(Inverted Index)。本文将详细介绍Elasticsearch中的倒排索引,帮助读者深入理解其原理、结构及应用。

image.png

一、倒排索引简介

倒排索引是全文搜索引擎的核心数据结构,其主要作用是从文档中提取关键词,并建立关键词到文档的映射关系。这种结构与传统的正排索引(即文档到关键词的映射)相反,因此称为倒排索引。
在倒排索引中,每个关键词都关联着包含该关键词的文档列表,这使得搜索操作能够迅速定位包含特定关键词的文档,从而大幅提高查询效率。

二、倒排索引的基本结构

倒排索引的基本结构包括以下几个部分:

  1. 词典(Dictionary):包含所有在文档集中出现的关键词。
  2. 倒排列表(Inverted List):对于每个关键词,记录包含该关键词的文档ID列表及其在文档中的位置信息。

举一个简单的例子:
假设我们有以下三个文档:

  • 文档1:"Elasticsearch is a powerful search engine"
  • 文档2:"Elasticsearch uses inverted index"
  • 文档3:"Search engines use indexes"

构建倒排索引的步骤如下:

  1. 词条化(Tokenization):将文档拆分为单词,并进行规范化处理(如转小写、去除停用词等)。
  2. 建立词典:提取所有文档中的唯一单词。
  3. 创建倒排列表:记录每个单词在各个文档中的出现位置。

结果如下:

  • elasticsearch -> {1, 2}
  • is -> {1}
  • a -> {1}
  • powerful -> {1}
  • search -> {1, 3}
  • engine -> {1}
  • uses -> {2}
  • inverted -> {2}
  • index -> {2}
  • engines -> {3}
  • use -> {3}
  • indexes -> {3}

三、Elasticsearch中的倒排索引

3.1 索引和文档

在Elasticsearch中,数据以索引(Index)的形式存储,每个索引包含多个文档(Document)。每个文档是一个JSON对象,包含多个字段(Field),每个字段都有相应的值。

3.2 创建倒排索引

当一个文档被索引时,Elasticsearch会对文档进行分析(Analyze),将其分解为多个词条(Term)。分析过程包括分词(Tokenization)、词干提取(Stemming)和去除停用词(Stop Word Removal)等步骤。处理后的词条将被添加到倒排索引中。

3.3 倒排索引的存储结构

Elasticsearch基于Apache Lucene构建,Lucene使用了一种高效的倒排索引存储结构。每个索引由多个分片(Shard)组成,每个分片是一个Lucene索引。在每个Lucene索引中,倒排索引以段(Segment)形式存储。段是不可变的文件集合,当有新的文档添加时,Lucene会创建新的段,并定期进行段合并(Segment Merging)以减少文件数量和提高查询性能。

3.4 词典和倒排列表的优化

为了提高查询效率,Lucene对词典和倒排列表进行了多种优化:

  1. 跳表(Skip List):在倒排列表中引入跳表结构,允许快速跳转到指定位置,加速查询速度。
  2. 前缀压缩(Prefix Compression):对词典中的相邻词条进行前缀压缩,减少存储空间。
  3. 块索引(Block Indexing):将倒排列表分成固定大小的块,每个块包含多个文档ID。查询时,可以快速定位到包含目标文档ID的块,从而减少遍历的时间。

四、倒排索引的查询过程

4.1 过程

当用户发起搜索请求时,Elasticsearch会根据查询条件在倒排索引中查找匹配的文档。以关键词查询为例,查询过程如下:

  1. 解析查询:将用户输入的查询字符串解析为关键词列表。
  2. 查找词典:在倒排索引的词典中查找每个关键词,获取对应的倒排列表。
  3. 合并结果:根据倒排列表合并结果,生成匹配文档的列表。
  4. 计算评分:对匹配的文档进行相关性评分,排序后返回给用户。

4.2 示例

假设我们要搜索关键词"Elasticsearch search engine",查询过程如下:

  1. 解析查询:["elasticsearch", "search", "engine"]
  2. 查找词典:
    • elasticsearch -> {1, 2}
    • search -> {1, 3}
    • engine -> {1}
  3. 合并结果:文档1包含所有关键词,文档2和文档3分别包含部分关键词。
  4. 计算评分:根据文档与查询的匹配度进行评分,假设文档1得分最高,则返回文档1。

五、倒排索引的优缺点

5.1 优点

  1. 高效的关键词搜索:倒排索引允许快速查找包含特定关键词的文档,极大提高了查询效率。
  2. 可扩展性:通过分片和副本机制,Elasticsearch能够处理大规模数据,并保证高可用性。
  3. 灵活的查询能力:支持多种查询类型,如布尔查询、范围查询、模糊查询等,满足不同应用需求。

5.2 缺点

  1. 存储空间占用较大:倒排索引需要存储词典和倒排列表,可能占用较多存储空间,尤其是处理大规模文本数据时。
  2. 实时性较弱:由于倒排索引的构建和更新需要一定时间,可能无法满足高实时性要求的应用场景。

六、倒排索引在实际应用中的优化

6.1 分析器配置

Elasticsearch提供多种内置分析器,如标准分析器(Standard Analyzer)、简洁分析器(Simple Analyzer)等。用户可以根据实际需求选择合适的分析器,并进行定制化配置,如添加同义词过滤器(Synonym Filter)等。

6.2 分片和副本

通过合理配置分片(Shard)和副本(Replica)数量,可以提高Elasticsearch集群的查询性能和容错能力。分片允许将数据分布到多个节点上,副本提供数据冗余以应对节点故障。

6.3 缓存机制

Elasticsearch支持多种缓存机制,如查询缓存(Query Cache)、过滤器缓存(Filter Cache)等。合理利用缓存可以减少磁盘I/O,提高查询性能。

6.4 数据分层存储

对于大规模数据,可以采用冷热分离存储策略,将近期活跃数据存储在高性能存储介质上,将历史数据存储在低成本存储介质上,降低存储成本的同时保证查询性能。
封面.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/371543.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ComfyUI+MuseV+MuseTalk图片数字人

电脑配置 GPU12G,如果自己电脑配置不够,选择云gpu,我就是用的这个,自己电脑太老配置跟不上 环境: Python 3.11.8 torch 2.2.1 cuda_12.1 资源提供: 链接:https://pan.baidu.com/s/1_idZbF…

subset使用

在R语言中,subset()函数用于从数据框中选择满足特定条件的观测。其语法如下: subset(x, subset, select, drop FALSE) 参数说明: x:数据框或矩阵。 subset:逻辑条件,用于筛选满足特定条件的行。 select…

MySQL—统计函数和数学函数以及GROUP BY配合HAVING

合计/统计函数 count -- 演示 mysql 的统计函数的使用 -- 统计一个班级共有多少学生? SELECT COUNT(*) FROM student -- 统计数学成绩大于 90 的学生有多少个? SELECT COUNT(*) FROM student WHERE math > 90 -- 统计总分大于 250 的人数有多少&…

axios和Mybatis

除了get和post方法还有其他的方法: 发送 PUT 请求 发送 PUT 请求通常用于更新服务器上的资源。 const updateData {title: foo updated,body: bar updated,userId: 1 };axios.put(https://jsonplaceholder.typicode.com/posts/1, updateData).then(function (res…

麦蕊智数,,另外一个提供免费的股票数据API,可以通过其提供的接口获取实时和历史的股票数据。

麦蕊智数,,提供免费的股票数据API,可以通过其提供的接口获取实时和历史的股票数据。 API接口:http://api.mairui.club/hslt/new/您的licence 备用接口:http://api1.mairui.club/hslt/new/您的licence 请求频率&#x…

Node.js_fs模块

文件删除 文件重命名和移动(本质都是修改路径) 文件夹操作 创建文件夹(mkdir) 读取文件夹(readdir) (打印出来是该文件夹下名称的数组形式) 读取当前的文件夹(readdir) 删除文件夹 (rmdir) 查看资源状态…

Golang | Leetcode Golang题解之第222题完全二叉树的节点个数

题目&#xff1a; 题解&#xff1a; func countNodes(root *TreeNode) int {if root nil {return 0}level : 0for node : root; node.Left ! nil; node node.Left {level}return sort.Search(1<<(level1), func(k int) bool {if k < 1<<level {return false}…

Apache Seata新特性支持 -- undo_log压缩

本文来自 Apache Seata官方文档&#xff0c;欢迎访问官网&#xff0c;查看更多深度文章。 本文来自 Apache Seata官方文档&#xff0c;欢迎访问官网&#xff0c;查看更多深度文章。 Apache Seata新特性支持 – undo_log压缩 Seata新特性支持 – undo_log压缩 现状 & 痛点…

线程池理解及7个参数

定义理解 线程池其实是一种池化的技术实现&#xff0c;池化技术的核心思想就是实现资源的复用&#xff0c;避免资源的重复创建和销毁带来的性能开销。线程池可以管理一堆线程&#xff0c;让线程执行完任务之后不进行销毁&#xff0c;而是继续去处理其它线程已经提交的任务。 …

20、matlab信号波形生成:狄利克雷函数、高斯脉冲和高斯脉冲序列

1、名词说明 狄利克雷函数&#xff08;Dirac Delta Function&#xff09; 狄利克雷函数&#xff0c;也称为单位冲激函数或δ函数&#xff0c;是一个在数学和信号处理中常用的特殊函数。狄利克雷函数通常用符号δ(t)表示&#xff0c;其定义为&#xff1a; δ(t) { ∞, t 0{…

RabbitMq - Java客户端基础【简单案例 +Work模型】

目录 1、前置知识 1.1、AMQP怎么理解 1.2、Spring AMQP是什么 1.3、为什么要了解Spring-AMQP&#xff1f; 2、使用Spring-AMQP实现一个发消息案例 3、Work模型 问题&#xff1a; 优化&#xff1a; 小结&#xff1a;Work模型的使用&#xff1a; 1、前置知识 1.1、AMQP怎…

简介空间复杂度

我们承接上一篇博客。我们写了时间复杂度之后&#xff0c;我们就要来介绍一下另一个相关复杂度了。空间复杂度。我觉得大家应该对空间复杂度认识可能比较少一些。我就是这样&#xff0c;我很少看见题目中有明确要求过空间复杂度的。但确实有这个是我们不可忽视的&#xff0c;所…

ID3算法决策树

步骤&#xff1a; 先计算出信息量&#xff1b;信息熵&#xff1b;信息增量&#xff1b; 再比较信息增量的大小&#xff0c;确定分类依据。 信息量&#xff1a; 信息熵&#xff1a; 信息增益&#xff1a;

Beats:使用 Filebeat 从 Python 应用程序中提取日志

本指南演示了如何从 Python 应用程序中提取日志并将其安全地传送到 Elasticsearch Service 部署中。你将设置 Filebeat 来监控具有标准 Elastic Common Schema (ECS) 格式字段的 JSON 结构日志文件&#xff0c;然后你将在 Kibana 中查看日志事件发生的实时可视化。虽然此示例使…

Nginx:location配置模块的用法

运维系列 Nginx&#xff1a;location配置模块的用法 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.c…

最新整理的机器人相关数据合集(1993-2022年不等 具体看数据类型)

机器人安装数据是指记录全球或特定区域内工业机器人新安装数量的信息&#xff0c;这一数据由国际机器人联合会(IFR)等权威机构定期发布。这些数据不仅揭示了机器人技术的市场需求趋势&#xff0c;还反映了各国和地区自动化水平及产业升级的步伐。例如&#xff0c;数据显示中国在…

550kg级大载重长航时无人机直升机技术详解

550kg级大载重长航时无人机直升机&#xff0c;作为一种高性能的无人机系统&#xff0c;具备了多项先进的技术特点&#xff0c;以满足高海拔、高寒等复杂环境下的应用需求。这些无人机直升机通常具备高载重、长航时、强适应性、高可靠性和良好的任务拓展性。 设备由无人直升机平…

Android sdk 安装已经环境配置

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a;Android ⛳️ 功不唐捐&#xff0c;玉汝于成 目录 正文 一、下载 二、安装 三、环境配置 我的其他博客 正文 一、下载 1、大家可去官网下载 因为需要魔法 所以就不展示了 2、去下面这…

stm32精密控制步进电机(基础篇)

众所周知&#xff0c;步进电机由于使用脉冲控制&#xff0c;会比直流电机的控制稍难一些&#xff0c;但开环控制时也更加稳定。 落到做项目的时候&#xff0c;目前来说我都会先考虑步进电机&#xff0c;再去考虑直流&#xff0c;无刷这样的电机。包括毕设时所用的机械臂也是用…

整洁架构SOLID-单一职责原则(SRP)

文章目录 定义案例分析重复的假象代码合并解决方案 小结 定义 SRP是SOLID五大设计原则中最容易被误解的一个。也许是名字的原因&#xff0c;很多程序员根据SRP这个名字想当然地认为这个原则就是指&#xff1a;每个模块都应该只做一件事。 在历史上&#xff0c;我们曾经这样描…