ElasticSearch学习了解笔记

ElasticSearch学习了解笔记

news/2024/12/27 15:36:39/文章来源:https://blog.csdn.net/LeonNo11/article/details/144042591

搜索引擎的原理：

1、查询分析（自然语言处理）理解用户需求
2、分词技术
3、关键词搜索匹配
4、搜索排序

lucence

Lucene 是一个成熟的权威检索库
Elasticsearch 的搜索原理简单过程是，索引系统通过扫描文章中的每一个词，对其创建索引，指明在文章中出现的次数和位置，当用户查询时，索引系统就会根据事先的索引进行查找，并将查找的结果反馈给用户的检索方式。

倒排索引技术

数据结构，主要作用是从文档中提取关键词，并建立关键词到文档的映射关系。
在倒排索引中，每个关键词都关联着包含该关键词的文档列表，这使得搜索操作能够迅速定位包含特定关键词的文档，从而大幅提高查询效率。

词典（Dictionary）：包含所有在文档集中出现的关键词。
倒排列表（Inverted List）：对于每个关键词，记录包含该关键词的文档ID列表及其在文档中的位置信息。

倒排索引的步骤：
词条化（Tokenization）：将文档拆分为单词，并进行规范化处理（如转小写、去除停用词等）。
建立词典：提取所有文档中的唯一单词。
创建倒排列表：记录每个单词在各个文档中的出现位置。
在这里插入图片描述

分词器

Elasticsearch是一个流行的搜索引擎库，它使用了一种基于Lucene的全文搜索引擎。在其内置的分词器中，有几种标准的选择：

标准分词器 (StandardTokenizer)：这是默认的分词器，适用于大多数英语文本。它将连续的字母字符视为单词，并处理标点符号、数字和特殊字符。它会根据空格、换行符等进行分割。
雪崩分词器 (SnowballAnalyzer)：基于Lucene的Snowball算法，用于对英文进行更复杂的词形还原（Stemming），即将单词的不同形式归并为其基本形式，比如"running"会被转化为"run"。
拼音分词器 (PhoneticTokenFilter)：针对汉字拼音，将其转换成一种标准化的拼音表示，以便于搜索。
IK分词器：虽然不是Elasticsearch的标准，但IK Analyzer是一种广泛使用的第三方插件，支持更多的中文分词规则，包括全拼、简拼、词组分词等。
自定义分词器：用户还可以创建自定义的tokenizer和filter，根据特定场景的需求来进行词元的划分和处理。

每种分词器都有其适用的文本类型和场景，选择合适的分词器能提高搜索效果。使用analyzer属性可以在索引文档时指定使用哪种分词器。

ElasticSearch详解

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/478302.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

GoF设计模式——结构型设计模式分析与应用

GoF设计模式——结构型设计模式分析与应用

文章目录 UML图的结构主要表现为：继承（抽象）、关联、组合或聚合的三种关系。1. 继承（抽象，泛化关系）2. 关联3. 组合/聚合各种可能的配合：1. 关联后抽象2. 关联的集合3. 组合接口4. 递归聚合接…

阅读更多...

【C++】C++11新特性详解：可变参数模板与emplace系列的应用

【C++】C++11新特性详解：可变参数模板与emplace系列的应用

C语法相关知识点可以通过点击以下链接进行学习一起加油！命名空间缺省参数与函数重载C相关特性类和对象-上篇类和对象-中篇类和对象-下篇日期类C/C内存管理模板初阶String使用String模拟实现Vector使用及其模拟实现List使用及其模拟实现容器适配器Stack与QueuePriori…

阅读更多...

多模态大型语言模型（MLLM）综述

多模态大型语言模型（MLLM）综述

目录多模态大语言模型的基础长短期网络结构（LSTM）自注意力机制基于Transformer架构的自然语言处理模型多模态嵌入的关键步骤 TF-IDF TF-IDF的概念 TF-IDF的计算公式 TF-IDF的主要思路 TF-IDF的案例训练和微调多模态大语言模型(MLLM) 对比学习 (CLIP, ALIG…

阅读更多...

Otter 安装流程

Otter 安装流程

优质博文：IT-BLOG-CN 一、背景随着公司的发展，订单库的数据目前已达到千万级别，需要进行分表分库，就需要对数据进行迁移，我们使用了otter，这里简单整理下，otter 的安装过程，希望对…

阅读更多...

Web3 游戏周报（11.17 - 11.23）

Web3 游戏周报（11.17 - 11.23）

回顾上周的区块链游戏概况，查看 Footprint Analytics 与 ABGA 最新发布的数据报告。【11.17 - 11.23】Web3 游戏行业动态： 加密游戏开发商 Gunzilla Games 发推表示，其已与 Coinbase Ventures 达成合作并获得其投资。国际足联将与 Mythica…

阅读更多...

【linux学习指南】初识Linux进程信号与使用

【linux学习指南】初识Linux进程信号与使用

文章目录 📝信号快速认识📶⽣活⻆度的信号📶 技术应⽤⻆度的信号🌉 前台进程（键盘）🌉⼀个系统函数 📶信号概念📶查看信号 🌠 信号处理🌉 忽略此信…

阅读更多...

3DEXPERIENCE软件是干什么的—3DE软件代理商微辰三维

3DEXPERIENCE软件是干什么的—3DE软件代理商微辰三维

在当今数字化转型浪潮席卷全球各个行业的大背景下，3DEXPERIENCE 软件宛如一颗璀璨的明星，闪耀在产品设计、制造以及协同创新等诸多领域。它是由达索系统公司推出的一款综合性的、功能强大的商业软件平台，为企业的整个产品生命周期管理带来了前…

阅读更多...

【大数据学习 | Spark-Core】广播变量和累加器

【大数据学习 | Spark-Core】广播变量和累加器

1. 共享变量 Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）。累加器用来对信息进行聚合，相当于mapreduce中的counter；而广播变量用来高效分发较大的对象&#xff0c…

阅读更多...

STM32编程小工具FlyMcu和STLINK Utility 《通俗易懂》破解

STM32编程小工具FlyMcu和STLINK Utility 《通俗易懂》破解

FlyMcu FlyMcu 模拟仿真软件是一款用于 STM32 芯片 ISP 串口烧录程序的专用工具，免费，且较为非常容易下手，好用便捷。注意：STM32 芯片的 ISP 下载，只能使用串口1（USART1），对应的串口…

阅读更多...

MTK主板_安卓主板方案_MTK联发科主板定制开发

MTK主板_安卓主板方案_MTK联发科主板定制开发

联发科(MTK)主板以其强大的性能和多样化的功能而受到广泛关注。该平台包括多个型号，例如MT6761、MT8766、MT6762、MT6765、MT8768和MT8788等，均配置了四核或八核64位处理器，主频可高达2.0GHz。采用先进的12nm工艺，搭载Android 11.…

阅读更多...

信息收集（1）

信息收集（1）

学习视频引路信息收集（1）_哔哩哔哩_bilibili View信息收集（1） 分享一个漏洞挖掘平台：补天以吉林通用航空职业技术学院|官网 (jlthedu.com)为目标第一步：查看cdn和域名被注册的信息可以查询域名信息的…

阅读更多...

React（六）——Redux

React（六）——Redux

文章目录项目地址基本理解一、配置Redux store二、创建slice配置到store里并使用三、给Slice配置reducers，用来修改初始值项目地址教程作者：教程地址： 代码仓库地址： 所用到的框架和插件： dbt airflow基本理解 s…

阅读更多...

uniapp 地图移入的快，高亮显示两个

uniapp 地图移入的快，高亮显示两个

解决：

阅读更多...

如何利用ATECLOUD平台来实现数据报告的导出和数据分析？-纳米软件

如何利用ATECLOUD平台来实现数据报告的导出和数据分析？-纳米软件

1.数据报告导出选择报告模板：ATECLOUD 平台通常会提供多种预设的数据报告模板，这些模板是根据不同的测试场景和需求设计的。例如，在电源模块测试中，有针对输出电压、电流、功率等基本参数的报告模板，也有包含纹波系数…

阅读更多...

[ZJCTF 2019]NiZhuanSiWei

[ZJCTF 2019]NiZhuanSiWei

[ZJCTF 2019]NiZhuanSiWei 上面代码，使用get上传了三个参数，在text者用力恒等于，然后就输出，接着第二个参数中出现flag就输出not now，接着第三个参数是反序了一下输出。 ?textdata://text/plain,welcome to the zjct…

阅读更多...

JSONCPP 数据解析与序列化

JSONCPP 数据解析与序列化

常用类接口 Json::Value 类用于存储 JSON 数据的核心类。它支持将数据解析为对象、数组或基本类型（如字符串、数值等） 赋值操作符：Value& operator(Value other); 用于将一个 JSON 值赋给另一个 JSON 值 Json::Value value; value &…

阅读更多...

40分钟学 Go 语言高并发：【实战】并发安全的配置管理器（功能扩展）

40分钟学 Go 语言高并发：【实战】并发安全的配置管理器（功能扩展）

【实战】并发安全的配置管理器（功能扩展） 一、扩展思考分布式配置中心实现配置的集中管理支持多节点配置同步实现配置的版本一致性配置加密敏感配置的加密存储配置的安全传输访问权限控制配置格式支持支持YAML、TOML等多种格式配置格式自动…

阅读更多...

ChatGPT 桌面版发布了，如何安装？

ChatGPT 桌面版发布了，如何安装？

本章教程教大家如何进行安装。一、下载安装包官网地址地址：https://openai.com/chatgpt/desktop/ 支持Windows和MacOS操作系统二、安装步骤 Windows用户下载之后，会有一个exe安装包，点击运行安装即可。注意事项，如果Windows操…

阅读更多...

【Electron学习笔记（二）】基于Electron开发应用程序

【Electron学习笔记（二）】基于Electron开发应用程序

基于Electron开发本地应用程序基于Electron开发本地应用程序前言正文1、创建 pages 目录2、创建 index.html 文件3 、创建 html.css 文件4 、main.js里引入页面5 、运行 start 命令6 、启用开发者模式7 、解决内容安全策略8、完善窗口行为9、配置自动重启，保存后自…

阅读更多...

力扣--LCR 154.复杂链表的复制

力扣--LCR 154.复杂链表的复制

题目请实现 copyRandomList 函数，复制一个复杂链表。在复杂链表中，每个节点除了有一个 next 指针指向下一个节点，还有一个 random 指针指向链表中的任意节点或者 null。提示： -10000 < Node.val < 10000 Node.random 为…

阅读更多...

最新文章

推荐文章