二十五、DSL查询文档(全文检索查询、精确查询、地理查询、复合查询)

目录

一、全文检索查询

1、match查询

语法:

2、multi_match查询

语法:

3、match和mult_match的区别

二、精确查询

1、term查询:

语法:

2、range查询:(范围查询)

语法:

三、地理查询

1、geo_bounding_box查询:

语法:

2、geo_distance查询:

语法:

四、复合查询

1、fuction score:

(1)词条频率

(2)TF-IDF算法

(3)BM25算法

2、总结

五、Function Score Query

1、bool查询


一、全文检索查询

1、match查询

全文检索查询的一种,会对用户输入内容分词,然后去倒排索引库检索。

语法:
GET /indexName/_search
{"query": {"match": {"FIELD": "TEXT"}}
}

2、multi_match查询

 与match查询类似,只不过允许同时查询多个字段。

语法:
GET /indexName/_search
{"query": {"multi_match": {"query": "TEXT","fields": ["FIELD1","FIELD2"]}}
}

3、match和mult_match的区别

  • match:根据一个字段查询
  • multi_match:根据多个字段查询,参与查询字段越多,查询性能越差

二、精确查询

精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词

1、term查询:

根据词条精确匹配,一般搜索keyword类型、数值类型、布尔类型、日期类型字段

value中的值要确保和文档中的一模一样

语法:
GET /indexName/_search
{"query": {"term": {"FIELD": {"value": "VALUE"}}}
}

2、range查询:(范围查询)

根据数值范围查询,可以是数值、日期的范围

gte表示范围下限lte表示范围上限

gt表示大于而不等于lt表示小于而不等于;

语法:
GET /indexName/_search
{"query": {"range": {"FIELD": {"gte": 10,"lte": 20}}}
}

三、地理查询

1、geo_bounding_box查询:

查询geo_point值落在某个矩形范围的所有文档

语法:
GET /indexName/_search
{"query": {"geo_bounding_box":{"FIELD":{"top_left":{"lat":31.1,"lon":121.5},"bottom_right":{"lat":30.9,"lon":121.7}}}}
}

2、geo_distance查询:

查询到指定中心点小于某个距离值的所有文档

语法:
GET /indexName/_search
{"query": {"geo_distance":{"distance":"15km","FIELD":"31.21.121.5"}}
}

四、复合查询

复合查询可以将其它简单查询组合起来,实现更复杂的搜索逻辑。

1、fuction score:

算分函数查询,可以控制文档相关性算分,控制文档排名。

(1)词条频率

例子:

“你你你你你,是是是,我我我我,的的,谁”,一共有15个字。

“你”的频率是 \frac{1}{3} ,”是“的频率是 \frac{1}{5} 。

频率越高,分数越高,搜索结果越靠前。

(2)TF-IDF算法

例子:

若我要搜索钢铁侠,在搜索结果中,一共有三个文档:

《你是钢铁侠》

《我是钢铁下》

《都是钢铁虾》

其中”钢铁“出现了三次,而文档个数是三次,它的逆文档频率就是 \log1 = 0,分数也就是0,

所以”钢铁“就不代表权重了,而”侠“字只出现了一次,所以它的权重大,此搜索结果也就靠前。

(3)BM25算法

BM25是一种用于信息检索的算法,它是基于词频和文档长度的统计方法,用于计算查询与文档之间的相关性得分。BM25算法是一种改进的TF-IDF算法,它考虑了文档长度的影响,以及对于一些高频词汇的惩罚。BM25算法的公式如下:

score(D,Q) = ∑(i=1 to n) IDF(qi) * ((k+1)*f(qi,D))/(f(qi,D)+k*(1-b+b*(|D|/avgdl)))

其中,D表示文档,Q表示查询,qi表示查询中的第i个词,f(qi,D)表示文档D中qi出现的频率,|D|表示文档D的长度,avgdl表示所有文档的平均长度,IDF(qi)表示逆文档频率,k和b是两个可调参数。

BM25算法的优点是可以处理长文档和短文档,而且对于高频词汇的处理也比较合理。但是,BM25算法的计算复杂度较高,需要对所有文档进行扫描和计算,因此在大规模数据集上的应用需要考虑效率问题。

2、总结

五、Function Score Query

1、bool查询

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/208573.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot如何快速生成分页展示以及统计条数

这是表结构: 前置知识: 分页查询公式(): -- 推导一个公式 -- select * from emp -- order by empno -- limit 每页显示记录数 * (第几页-1),每页显示记录数 统计条数公式: select count…

【动态规划】LeetCode-931.下降路径最小和

🎈算法那些事专栏说明:这是一个记录刷题日常的专栏,每个文章标题前都会写明这道题使用的算法。专栏每日计划至少更新1道题目,在这立下Flag🚩 🏠个人主页:Jammingpro 📕专栏链接&…

Wordpress自动定时发布怎么开通-Wordpress怎么自动发布原创文章

在当今数字化时代,博客已经成为许多人分享观点、经验和知识的重要平台。然而,对于博主们来说,每天按时发布一篇又一篇的文章可能是一项具有挑战性的任务。为了解决这个问题,一些创新的工具应运而生,其中包括WordPress的…

Collection的其他相关知识

前置知识:可变参数 就是一种特殊参数,定义在方法 构造器的形参列表里,格式是:数据类型...参数名称; 可变参数的特点和好处 特点:可以不传数据给它;可以传一个或者同时传多个数据给它&#xff…

爬虫学习(三)用beautiful 解析html

安装库 import requests from bs4 import BeautifulSoup headers {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0"} for start_num in range(0,250…

【工作生活】汽车ECU开发内容简介

目录 1. 目标 2. 要分享什么 3.1 行业知识 3.1.1车载行业知识: 3.1.2项目: 3.1.3开发测试工具: 3.2 硬件平台 3.3 基础知识 3.4 工作生活 3. 我们是谁 1. 目标 随着新能源汽车的快速崛起,汽车电子行业开始快速发展&…

设计模式-结构型模式之外观设计模式

文章目录 七、外观模式 七、外观模式 外观模式(Facade Pattern)隐藏系统的复杂性,并向客户端提供了一个客户端可以访问系统的接口。它向现有的系统添加一个接口,来隐藏系统的复杂性。 这种模式涉及到一个单一的类,该类…

【华为OD题库-043】二维伞的雨滴效应-java

题目 普通的伞在二维平面世界中,左右两侧均有一条边,而两侧伞边最下面各有一个伞坠子,雨滴落到伞面,逐步流到伞坠处,会将伞坠的信息携带并落到地面,随着日积月累,地面会呈现伞坠的信息。 1、为了…

关于微信小程序中如何实现数据可视化-echarts动态渲染

移动端设备中,难免会涉及到数据的可视化展示、数据统计等等,本篇主要讲解原生微信小程序中嵌入echarts并进行动态渲染,实现数据可视化功能。 基础使用 首先在GitHub上下载echarts包 地址:https://github.com/ecomfe/echarts-for…

【JavaEE初阶】Thread 类及常见方法、线程的状态

目录 1、Thread 类及常见方法 1.1 Thread 的常见构造方法 1.2 Thread 的几个常见属性 1.3 启动⼀个线程 - start() 1.4 中断⼀个线程 1.5 等待⼀个线程 - join() 1.6 获取当前线程引用 1.7 休眠当前线程 2、线程的状态 2.1 观察线程的所有状态 2.2 线程状态和状…

大数据Hadoop-HDFS_架构、读写流程

大数据Hadoop-HDFS 基本系统架构 HDFS架构包含三个部分:NameNode,DataNode,Client。 NameNode:NameNode用于存储、生成文件系统的元数据。运行一个实例。 DataNode:DataNode用于存储实际的数据,将自己管理…

Buzz库python代码示例

Buzz库来编写一个下载器程序。 php <?php require_once vendor/autoload.php; // 引入Buzz库 use Buzz\Browser; use Buzz\Message\Response; $browser new Browser(); // 设置 $browser->setHttpClient(new HttpClientProxy([ host > , port > , ])…

单片机学习1——点亮一个LED灯

Keil软件编写程序&#xff1a; 特殊功能寄存器声明&#xff1a; #include<reg52.h>sbit LED P1^0;void main() {LED 0;while(1); } 代码说明&#xff1a; sbit 语句是特殊功能位声明。 生成HEX文件&#xff0c;这个文件是下载到单片机里的文件。Options for Target…

大数据Doris(三十二):Doris高级功能

文章目录 Doris高级功能 一、​​​​​​​表结构变更

hql面试题之字符串使用split分割,并选择其中的一部分字段的问题

版本&#xff1a;20231109 1.题目&#xff1a; 有两张表,a表有id和abstringr两个字段&#xff0c;b表也有id和bstr两个字段&#xff0c;具体如下 A表&#xff1a; 1abc,bcd,cdf2123,456,789 B表: 1acddef2123456 在a表的abstring字段中用‘,’分割&#xff0c;并取出前两…

数据结构实验任务六 :基于 Dijsktra 算法的最短路径求解

本次代码为实验六:基于 Dijsktra 算法的最短路径求解实现。本实验的重点在于对于Dijsktra算法的理解。有关Dijsktra的资料可以参考有关博文&#xff1a; 图论&#xff1a;Dijkstra算法——最详细的分析&#xff0c;图文并茂&#xff0c;一次看懂&#xff01;-CSDN博客 以下附上…

【数据结构实验】排序(一)冒泡排序改进算法 Bubble及其性能分析

文章目录 1. 引言2. 冒泡排序算法原理2.1 传统冒泡排序2.2 改进的冒泡排序 3. 实验内容3.1 实验题目&#xff08;一&#xff09;输入要求&#xff08;二&#xff09;输出要求 3.2 算法实现 4. 实验结果5. 实验结论 1. 引言 排序算法是计算机科学中一个重要而基础的研究领域&…

chatgpt prompt提示词

chatgpt的接口是一个标准的http请求&#xff0c;请求的url为 POST https://api.openai.com/v1/chat/completions 官方的接口文档地址为&#xff1a;https://platform.openai.com/docs/api-reference/chat/create Example request curl https://api.openai.com/v1/chat/comp…

【计算机网络笔记】802.11无线局域网

系列文章目录 什么是计算机网络&#xff1f; 什么是网络协议&#xff1f; 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能&#xff08;1&#xff09;——速率、带宽、延迟 计算机网络性能&#xff08;2&#xff09;…

VUE语法-(readonly的用法)将数据设置成只读模式

1、功能概述 在Vue中定义一个变量&#xff0c;这个变量的值不允许被修改&#xff0c;核心是通过readonly设置成只读。 如果不会使用ref和reactive响应式数据参考如下博客&#xff1a; https://blog.csdn.net/tangshiyilang/article/details/134701103 2、具体实现 如下案例…