重生之我们在ES顶端相遇第15 章 - ES 的心脏-倒排索引

重生之我们在ES顶端相遇第15 章 - ES 的心脏-倒排索引

news/2024/11/24 2:52:23/文章来源:https://blog.csdn.net/qq_32880923/article/details/142422157

文章目录

- - 前言
  - 为什么叫倒排索引
  - 数据结构
  - 如何生成
  - 如何查询
  - TF、IDF
  - 参考文档

前言

上一章，简单介绍了 ES 的节点类型。
本章，我们要介绍 ES 中非常重要的一个概念：倒排索引。
ES 的全文索引就是基于倒排索引实现的。
本章内容建议重点学习，因为面试也常问。

为什么叫倒排索引

倒排索引指的是将每一个关键字映射到它出现的文档中。如下图所示
在这里插入图片描述

因为结构是倒着的，因此被称为倒排索引。

数据结构

倒排索引分为 2 部分：一部分叫 term directory(term 词典)，一部分叫 posting list(倒排列表)。如下图所示
在这里插入图片描述

term directory
term 字典，存放着每个单词到对应倒排列表的映射关系
posting list
Docs 是一个数组。其中 1:2:[2,6] 意思如下
- 1：文档ID
- 2：词频(term frequency)
- [2,6]：出现在文档中的第 2，6 个 term。

如何生成

这里涉及到我们之前讲过的分词器。工作流程如下图所示
在这里插入图片描述

大体就包含2部分，根据分词器将文本分词，然后根据分词生成倒排索引。

如何查询

例如我们查询：To do right。
则该文本会先被分词为：to, do, right
对应的结果如下图所示：
在这里插入图片描述

TF、IDF

默认情况下，ES 会根据文档与搜索词的相关性得分对结果降序返回。相关性得分与以下 2 个概念有关(稍做了解，后续会出文章做更深入的介绍)

Term Frequency(TF)：term 在文档中出现的频率，得分正相关。出现频率越高，得分越高
Inverted Document Frequency(IDF)：term 在 所有文档 中出现的频率，得分负相关。出现频率越高，得分越低。

参考文档

Indexing: Inverted Index

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/429521.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Win10 安装Node.js 以及 Vue项目的创建

Win10 安装Node.js 以及 Vue项目的创建

一、Node.js和Vue介绍 1. Node.js Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。它允许你在服务器端运行 JavaScript，使得你能够使用 JavaScript 来编写后端代码。以下是 Node.js 的一些关键特点： 事件驱动和非阻塞 I/O：Node…

阅读更多...

Parallels Desktop 20(Mac虚拟机) v20.0.0 for Mac 最新破解版(支持M系列)

Parallels Desktop 20(Mac虚拟机) v20.0.0 for Mac 最新破解版(支持M系列)

Parallels Desktop 20 for Mac 正式发布，完全支持 macOS Sequoia 和 Windows 11 24H2，并且在企业版中引入了全新的管理门户。据介绍，新版本针对 Windows、macOS 和 Linux 虚拟机进行了大量更新，最大的亮点是全新推出的 Parallels…

阅读更多...

数据库提权【笔记总结】

数据库提权【笔记总结】

文章目录 UDF提权以有webshell只有数据库权限条件复现msf工具sql语句提权 MOF提权前言条件复现msf工具php脚本提权 sqlserver提权前言条件xp_cmdshell提权复现沙盒提权介绍复现 Oracle提权靶场搭建执行任意命令复现通过注入存储过程提权（低权限提升至DBA&#xff…

阅读更多...

安全帽佩戴识别摄像机：守护安全的智能之眼

安全帽佩戴识别摄像机：守护安全的智能之眼

在现代工业和建筑等诸多领域中，安全始终是重中之重。每一处施工现场、每一个生产车间都潜藏着可能对人员造成伤害的风险因素。而安全帽，作为保护工作人员头部免受伤害的关键装备，其是否被正确佩戴就显得尤为关键。此时，安全帽佩戴…

阅读更多...

智创未来，景联文科技提供全方位数据采集服务

智创未来，景联文科技提供全方位数据采集服务

随着科技的日新月异，人工智能技术正在改变我们的生活与工作方式，数据成为推动人工智能（AI）技术发展的基石。高质量的数据对于训练机器学习模型、提升算法性能以及实现智能应用的广泛部署至关重要。景联文科技凭借卓越的技术实力…

阅读更多...

Kafka 为什么这么快？

Kafka 为什么这么快？

Kafka 是一款性能非常优秀的消息队列，每秒处理的消息体量可以达到千万级别。今天来聊一聊 Kafka 高性能背后的技术原理。 1 批量发送 Kafka 收发消息都是批量进行处理的。我们看一下 Kafka 生产者发送消息的代码： private Future<RecordMetadata>…

阅读更多...

PowerMill 2025简体中文版百度云资源分享下载

PowerMill 2025简体中文版百度云资源分享下载

如大家所了解的，PowerMill是一款专业的CAM（计算机辅助制造）软件。主要用于加工行业，可以帮助用户进行高效、精准的加工工艺设计和数控编程，以达到生产部件的高精度和高质量。对于初次接触的小伙伴来说，目…

阅读更多...

$GAMES101（15节）$

GAMES101（15节）

Irradiance辐射度量学辐射度量学在渲染领域，可以帮助理解基于物理的光照模型 radiant energy辐射能量Q，累计总能量（单位J joule焦耳），就像太阳能板，光照时间越长接收能量越多，收到的能量总和…

阅读更多...

前后端分离，使用MOCK进行数据模拟开发，让前端攻城师独立于后端进行开发

前后端分离，使用MOCK进行数据模拟开发，让前端攻城师独立于后端进行开发

mock是什么 Mock生成随机数据,拦截Ajax 请求，前后端分离，让前端攻城师独立于后端进行开发。增加单元测试的真实性通过随机数据,模拟各种场景。在实际开发过程中，前端是通过axios来请求数据的，很多时候前端开发者就是通过写固定…

阅读更多...

浅谈Spring Cloud：OpenFeign

浅谈Spring Cloud：OpenFeign

RestTemplate 方式调用存在的问题： String url "http://userservice/user/" order.getUserId(); User user restTemplate.getForObject(url, User.class); 这是通过URL地址来访问的。但是： 代码可读性差，编程体验不统一参数复…

阅读更多...

Lucene详解介绍以及底层原理说明

Lucene详解介绍以及底层原理说明

文章目录什么是Lucene?示意图Lucene 的使用场景：Lucene 的生态系统： 相关概念1. **Document（文档）**2. **Field（字段）**3. **Analyzer（分析器）**4. **Tokenizer（分词器…

阅读更多...

前端基础知识+算法（一）

前端基础知识+算法（一）

文章目录算法二分查找条件注意方式基本原理左闭右闭正向写法左闭右开正向写法前端基础知识定时器及清除盒子垂直水平居中的方式垂直水平1.flex布局2.grid布局3.定位对于块级元素解决高度塌陷的方式1.给父元素一个固定的高度2.给父元素添加属性 overflow: hidden;3.在子元素…

阅读更多...

深度学习-从零基础快速入门到项目实践，这本书上市了！！！

深度学习-从零基础快速入门到项目实践，这本书上市了！！！

此书地址： 《【2024新书】深度学习从零基础快速入门到项目实践文青山跟我一起学人工智能机器学习算法原理代码实现教程深度学习项目分析深度学习从零基础快速入门到项目实践》【摘要书评试读】- 京东图书除深度学习外我还写了一本软件测试书。我大概是国…

阅读更多...

[Excel VBA办公]如何使用VBA批量删除空行

[Excel VBA办公]如何使用VBA批量删除空行

在处理Excel数据时，空行可能会干扰数据分析和展示。以下是一个VBA代码示例，帮助你批量删除工作表中的空行。 1. 代码说明此代码将遍历指定工作表，删除所有空行，确保数据整洁。 2. VBA代码删除sheet1的空行 Sub DeleteEmptyRow…

阅读更多...

VMware虚拟机因磁盘空间不足黑屏无法登录

VMware虚拟机因磁盘空间不足黑屏无法登录

在虚拟机里存储了一些文件之后，再打开发现进不去了，只有光标一直在左上角，登录的框都是黑的，具体如下： 明明知道登录框的存在却怎么也触碰不到它T_T ，先说解决方法： 产生这个问题的原因是因为磁…

阅读更多...

大数据Flink（一百二十一）：Flink CDC基本介绍

大数据Flink（一百二十一）：Flink CDC基本介绍

文章目录 Flink CDC基本介绍一、什么是CDC 二、CDC的实现机制三、传统 CDC ETL 分析四、基于 Flink CDC 的 ETL 分析五、什么是 Flink CDC 六、…

阅读更多...

OpenCV特征检测(10)检测图像中直线的函数HoughLinesP()的使用

OpenCV特征检测(10)检测图像中直线的函数HoughLinesP()的使用

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述在二值图像中使用概率霍夫变换查找线段。该函数实现了用于直线检测的概率霍夫变换算法，该算法在文献 181中有所描述。 HoughLines…

阅读更多...

go webapi上传文件

go webapi上传文件

一、导入依赖 import "net/http" 我这里用到了Guid所以安装依赖 go get github.com/google/uuid 二、main.go package mainimport ("fmt""github.com/jmoiron/sqlx""github.com/tealeg/xlsx""log""path/filepath&q…

阅读更多...

Cpp类和对象(中续)(5)

Cpp类和对象(中续)(5)

文章目录前言一、赋值运算符重载运算符重载赋值运算符重载赋值运算符不可重载为全局函数前置和后置的重载二、const修饰成员函数三、取地址及const取地址操作符重载四、日期类的实现构造函数日期天数日期天数日期 - 天数日期 - 天数日期类的大小比较日期类 > 日期类日…

阅读更多...

【CSS in Depth 2 精译_036】5.6 Grid 网格布局中与对齐相关的属性 + 5.7本章小结

【CSS in Depth 2 精译_036】5.6 Grid 网格布局中与对齐相关的属性 + 5.7本章小结

当前内容所在位置（可进入专栏查看其他译好的章节内容） 第一章层叠、优先级与继承（已完结） 1.1 层叠1.2 继承1.3 特殊值1.4 简写属性1.5 CSS 渐进式增强技术1.6 本章小结第二章相对单位（已完结） 2.1 相对…

阅读更多...

最新文章

推荐文章