【基础篇】第4章 Elasticsearch 查询与过滤

在Elasticsearch的世界里,高效地从海量数据中检索出所需信息是其核心价值所在。本章将深入解析查询与过滤的机制,从基础查询到复合查询,再到全文搜索与分析器的定制,为你揭开数据检索的神秘面纱。

4.1 基本查询

4.1.1 Match查询

Match查询是最基础的全文查询方式,用于查找与指定字段内容相匹配的文档。它支持模糊匹配,适用于字符串字段。例如,查询包含"elasticsearch"的文档:

{"query": {"match": {"content": "elasticsearch"}}
}

4.1.2 Term查询

Term查询用于精确匹配,不进行分析,即搜索时完全按照输入的词进行查找,适用于数字、日期或未经分析的字符串字段:

{"query": {"term": {"tag": "tutorial"}}
}

4.1.3 Range查询

Range查询用于筛选字段值在特定范围内的文档,适用于日期、数字等类型:

{"query": {"range": {"publish_date": {"gte": "2023-01-01","lte": "2023-12-31"}}}
}

4.2 复合查询与过滤

4.2.1 组合查询

组合查询通过将多个查询条件逻辑组合起来,实现更复杂的检索需求。常见的组合查询有boolshouldmustmust_not等。

{"query": {"bool": {"must": [{ "match": { "title": "Elasticsearch" }}],"filter": [{ "term": { "category": "technology" }}]}}
}

4.2.2 布尔查询与上下文

布尔查询是复合查询中最常用的形式,它允许你组合多个查询条件,通过must(与)、should(或)、must_not(非)来表达逻辑关系。filter子句用于过滤条件,与评分无关,提高查询效率。

4.2.3 查询与过滤的区别

查询上下文(query context)会影响文档的评分,适合全文搜索;而过滤上下文(filter context)不计算文档得分,仅用于过滤结果集,适用于精确匹配或条件筛选,性能更优。

4.3 全文搜索与分析器

4.3.1 全文检索原理

全文检索基于倒排索引,将文档中每个单词映射到包含该单词的所有文档的列表。这一机制允许Elasticsearch快速定位包含特定词汇的文档,是全文搜索的基础。
在这里插入图片描述

4.3.2 分析器的工作机制

分析器是全文搜索的核心组件,负责将文本分割成词语(Tokenization)、转换(Normalization)、去除停用词(Stop Words Removal)等过程,最终生成索引项或查询项。这一过程包括了三个关键步骤:字符过滤、分词、以及词元过滤。下面,我们将逐一深入探讨这些步骤。

字符过滤(Character Filtering)

字符过滤是分析过程的第一步,它的主要任务是在文本被分词之前,对文本进行预处理,移除或替换某些不需要的字符。例如,HTML标签、特殊符号或者非打印字符等,常常在这个阶段被处理掉。字符过滤器可以确保后续步骤能够专注于文本的实际内容,而不是被这些附加元素干扰。

示例代码片段:

"char_filter": ["html_strip"]

这里,html_strip就是一个字符过滤器,它负责去除文本中的HTML标签,确保纯文本内容进入后续处理环节。

分词(Tokenization)

分词是分析过程中最核心的步骤,它将文本切分成一个个有意义的单元,这些单元被称为词元(tokens)。分词器(tokenizer)决定着如何将文本分割,不同的分词器适用于不同类型的内容。例如,standard分词器会按单词边界进行分割,而whitespace分词器则简单地按空格分割文本。

示例代码片段:

"tokenizer": "standard"

使用standard分词器,一个句子会被分解成单个词汇,同时去除标点符号。

词元过滤(Token Filtering)

词元过滤发生在分词之后,这个阶段可以对产生的词元进行进一步的修改或处理。常见的操作包括转换大小写、删除停用词(stop words)、同义词替换、词干提取(stemming)或词形还原(lemmatization)等。这些操作有助于减少索引的大小,提高搜索效率,同时增强搜索的灵活性和准确性。

示例代码片段:

"filter": ["lowercase", "asciifolding"]
  • lowercase过滤器将所有词元转换为小写,确保搜索时大小写不敏感。
  • asciifolding过滤器将非ASCII字符转换为它们的ASCII等价形式,比如将é转换为e,这有助于国际化搜索的一致性。

综合作用

通过这三个步骤,原始文本被转换成了适合索引和搜索的形式。每个分析器都是由这三个组件的不同组合构成的,用户可以根据具体需求定制分析器,以优化搜索体验。例如,对于英文文档,可能需要去除停用词和执行词干提取;而对于中文文档,则可能需要利用专门的中文分词器,如IK Analyzer。

理解分析器的工作机制对于优化Elasticsearch的搜索性能和准确性至关重要,它允许用户精确控制文本如何被索引和搜索,从而满足各种复杂的应用场景需求。

4.3.3 自定义分析器

Elasticsearch提供了丰富的内置分析器,如standard、whitespace、keyword等。若内置分析器不能满足特定需求,可自定义分析器,通过组合字符过滤器(Character Filters)、分词器(Tokenizer)和词元过滤器(Token Filters)来定制化文本处理流程。

{"analysis": {"analyzer": {"my_custom_analyzer": {"type": "custom","tokenizer": "standard","char_filter": ["html_strip"],"filter": ["lowercase", "asciifolding"]}}}
}

小结

本章详细介绍了Elasticsearch查询与过滤的基础与高级概念,从简单到复杂的查询构建,到深入全文检索原理与分析器定制,为高效检索数据提供了全面的理论与实践指导。掌握这些技能,你将能更加灵活地在Elasticsearch中执行复杂的数据搜索任务。接下来的《第5章 数据聚合与分析》将进一步探讨如何利用Elasticsearch强大的聚合功能,对数据进行深度分析与洞察。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/370233.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多语言版在线出租车预订完整源码+用户应用程序+管理员 Laravel 面板+ 司机应用程序最新版源码

源码带PHP后台客户端源码 Flutter 是 Google 开发的一款开源移动应用开发 SDK。它用于开发 Android 和 iOS 应用,也是为 Google Fuchsia 创建应用的主要方法。Flutter 小部件整合了所有关键的平台差异,例如滚动、导航、图标和字体,可在 iOS 和…

如何在前端网页实现live2d的动态效果

React如何在前端网页实现live2d的动态效果 业务需求: 因为公司需要做机器人相关的业务,主要是聊天形式的内容,所以需要一个虚拟的卡通形象。而且为了更直观的展示用户和机器人对话的状态,该live2d动画的嘴型需要根据播放的内容来…

昇思25天学习打卡营第08天 | 模型训练

昇思25天学习打卡营第08天 | 模型训练 文章目录 昇思25天学习打卡营第08天 | 模型训练超参数损失函数优化器优化过程 训练与评估总结打卡 模型训练一般遵循四个步骤: 构建数据集定义神经网络模型定义超参数、损失函数和优化器输入数据集进行训练和评估 构建数据集和…

【Excel、RStudio计算T检测的具体操作步骤】

目录 一、基础知识1.1 显著性检验1.2 等方差T检验、异方差T检验1.3 单尾p、双尾p1.3.1 检验目的不同1.3.2 用法不同1.3.3 如何选择 二、Excel2.1 统计分析工具2.1.1 添加统计分析工具2.1.2 数据分析 2.2 公式 -> 插入函数 -> T.TEST 三、RStudio 一、基础知识 参考: 1.…

无人机运营合格证及无人机驾驶员合格证(AOPA)技术详解

无人机运营合格证及无人机驾驶员合格证(AOPA)技术详解如下: 一、无人机运营合格证 无人机运营合格证是无人机运营企业或个人必须获得的证书,以确保无人机在运营过程中符合相关法规和标准。对于无人机运营合格证的具体要求和申请…

【React】React18 Hooks之useState

目录 useState案例1(直接修改状态)案例2(函数式更新)案例3(受控表单绑定)注意事项1:set函数不会改变正在运行的代码的状态注意事项2:set函数自动批量处理注意事项3:在下次…

【反悔堆 优先队列 临项交换 决策包容性】630. 课程表 III

本文涉及知识点 贪心 反悔堆 优先队列 临项交换 Leetcode630. 课程表 III 这里有 n 门不同的在线课程,按从 1 到 n 编号。给你一个数组 courses ,其中 courses[i] [durationi, lastDayi] 表示第 i 门课将会 持续 上 durationi 天课,并且必…

E4.【C语言】练习:while和getchar的理解

#include <stdio.h> int main() {int ch 0;while ((ch getchar()) ! EOF){if (ch < 0 || ch>9)continue;putchar(ch);}return 0; } 理解上述代码 0-->48 9-->57 if行判断是否为数字&#xff0c;打印数字&#xff0c;不打印非数字

Selenium 切换 frame/iframe

环境&#xff1a; Python 3.8 selenium3.141.0 urllib31.26.19说明&#xff1a; driver.switch_to.frame() # 将当前定位的主体切换为frame/iframe表单的内嵌页面中 driver.switch_to.default_content() # 跳回最外层的页面# 判断元素是否在 frame/ifame 中 # 126 邮箱为例 # …

k8s公网集群安装(1.23.0)

网上搜到的公网搭建k8s都不太一致, 要么说的太复杂, 要么镜像无法下载, 所以写了一个简洁版,小白也能一次搭建成功 使用的都是centos7,k8s版本为1.23.0 使用二台机器搭建的, 三台也是一样的思路1.所有节点分别设置对应主机名 hostnamectl set-hostname master hostnamectl set…

javaSwing图书管理系统

一、 引言 图书管理系统是一个用于图书馆或书店管理图书信息、借阅记录和读者信息的应用程序。本系统使用Java Swing框架进行开发&#xff0c;提供直观的用户界面&#xff0c;方便图书馆管理员或书店工作人员对图书信息进行管理。以下是系统的设计、功能和实现的详细报告。 二…

Matplotlib Artist 1 概览

Matplotlib API中有三层 matplotlib.backend_bases.FigureCanvas&#xff1a;绘制区域matplotlib.backend_bases.Renderer&#xff1a;控制如何在FigureCanvas上绘制matplotlib.artist.Artist&#xff1a;控制render如何进行绘制 开发者95%的时间都是在使用Artist。Artist有两…

【C语言】自定义类型:联合和枚举

前言 前面我们学习了一种自定义类型&#xff0c;结构体&#xff0c;现在我们学习另外两种自定义类型&#xff0c;联合 和 枚举。 目录 一、联合体 1. 联合体类型的声明 2. 联合体的特点 3. 相同成员联合体和结构体对比 4. 联合体大小的计算 5. 用联合体判断当前机…

常见算法和Lambda

常见算法和Lambda 文章目录 常见算法和Lambda常见算法查找算法基本查找&#xff08;顺序查找&#xff09;二分查找/折半查找插值查找斐波那契查找分块查找扩展的分块查找&#xff08;无规律的数据&#xff09; 常见排序算法冒泡排序选择排序插入排序快速排序递归快速排序 Array…

hdu物联网硬件实验2 GPIO亮灯

学院 班级 学号 姓名 日期 成绩 实验题目 GPIO亮灯 实验目的 点亮三个灯闪烁频率为一秒 硬件原理 无 关键代码及注释 const int ledPin1 GREEN_LED; // the number of the LED pin const int ledPin2 YELLOW_LED; const int ledPin3 RED…

githup开了代理push不上去

你们好&#xff0c;我是金金金。 场景 git push出错 解决 cmd查看 git config --global http.proxy git config --global https.proxy 如果什么都没有&#xff0c;代表没设置全局代理&#xff0c;此时如果你开了代理&#xff0c;则执行如下&#xff0c;设置代理 git con…

【深度学习】图形模型基础(5):线性回归模型第四部分:预测与贝叶斯推断

1.引言 贝叶斯推断超越了传统估计方法&#xff0c;它包含三个关键步骤&#xff1a;结合数据和模型形成后验分布&#xff0c;通过模拟传播不确定性&#xff0c;以及利用先验分布整合额外信息。本文将通过实际案例阐释这些步骤&#xff0c;展示它们在预测和推断中的挑战和应用。…

CSS中 实现四角边框效果

效果图 关键代码 border-radius:10rpx ;background: linear-gradient(#fff, #fff) left top,linear-gradient(#fff, #fff) left top,linear-gradient(#fff, #fff) right top,linear-gradient(#fff, #fff) right top,linear-gradient(#fff, #fff) left bottom,linear-gradient(…

12 Dockerfile详解

目录 1. Dockerfile 2. Dockerfile构建过程 2.1. Dockerfile编写规则&#xff1a; 2.2. Docker执行Dockerfile的大致流程 2.3. 总结 3. Dockerfile指令 3.1. FROM 3.2. MAINTAINER 3.3. RUN 3.4. EXPOSE 3.5. WORKDIR 3.6. USER 3.7. ENV 3.8. VOLUME 3.9. ADD …

电商利器——淘宝商品月销量API接口解析

在电商时代&#xff0c;数据就是金钱。对于淘宝商家而言&#xff0c;掌握商品的销量数据无异于掌握了市场的脉搏。如今&#xff0c;淘宝商品月销量API接口的出现&#xff0c;联讯数据让商家如虎添翼&#xff0c;能够更加精准地把握市场动态&#xff0c;优化商品策略。 淘宝商…