ES分词查询

全文检索介绍

全文检索的发展过程:

  1. 数据库使用SQL语句:select * from table where data like “%检索内容%”
  2. 出现lucene全文检索工具(缺点:暴露的接口相对复杂,且没有效率)
  3. 出现分布式检索服务框架solr(缺点:建立索引期间。solr搜索能力极度下降,造成实时索引效率不高)
  4. 出现 Elasticsearch ,是以lucene为基础,基于Restful接口进行发布

非结构化数据查找方法

  1. 顺序扫描法:遍历所有文件,找到所包含的字符
  2. 全文检索:将非结构化数据中的一部分信息提取,重新组织,使其变得具有一定结构,然后对此有一定结构的数据进行检索。这部分从非结构数据中提取重新组织的信息称之为索引,这种先建立索引,再对索引进行搜索的过程叫做全文检索(full-text search)

Lucene全文检索流程

image.png

ES

ES简介

ES与Solr对比

  • Solr使用zookeeper进行分布式管理,而ES自身带有分布式协调管理
  • Solr支持更多格式数据,而ES仅支持json
  • Solr官方提供功能更多,而ES本身更注重核心功能,高级功能由第三方插件提供
  • ES在处理实时搜索应用时效高于Solr

ES架构模块

image.png

  • Gateway:存储索引的文件系统,支持多种类型(Local本地、Shared分片、Hadoop、Amazon)
  • Distributed Lucene Directory:分布式的Lucene框架
  • Lucene之上是ES 的模块,包括:索引模块、搜索模块、映射解析模块
  • ES之上是Discovery、Scripting和第三方插件
    • Discovery:ES 的节点发现模块,不同机器上的ES节点要组成集群需要进行消息通信,集群内部master选举等,支持多种发现机制,如Zen、EC2
    • Scripting:用来支持查询语句插入JavaScript、python等脚本语言,Scripting模块负责解析这些脚本,但使用这些脚本性能较低,同时ES也支持多种第三方插件
  • 再往上Transport模块:主要是ES的传输模块和JMX(Java的管理框架)传输模块,支持多种传输协议,如Thrift、Memacached、http等,默认是http
  • 再往上就是ES提供的用户接口

核心概念

  1. 索引ndex:就是一堆有相似结构的文档数据,用于区分文档成组,即分到一组的文档集合
  2. 类型Type:用于区分索引中的文档,即在索引中对数据逻辑分区。比如将博客平台所有数据存储到一个索引中,在该索引中,可为用户数据、博客数据、评论数据等分别定义一个type
  3. 文档Document:指定了唯一 ID 的最底层或者根对象,ES的最小数据单元
  4. 字段Field:定义Document应有的字段

ES与MySQL类比:
image.png

  1. 集群cluster:由多个节点组织在一起,共同持有整个集群数据(注意:一个集群有唯一的名字标识,默认是“elasticsearch”。一个节点只能通过指定某个集群的名字加入该集群)

  2. 节点node:集群中的一个服务器
    一个节点由一个名字标识,默认情况是随机的“漫威漫画角色名字”
    一个节点可通过配置集群名称方式加入指定集群,默认下,每个节点都被安排到“elasticsearch”集群中
    若启动第一个节点,会默认创建并加入到叫“elasticsearch”的集群

  3. 分片shard

一个索引可存储超出某节点硬件限制的大量数据,比如一个10亿文档的索引占据1T磁盘空间,而任一节点都没有这么大的磁盘空间;或单个节点处理请求响应太慢。为解决此类问题,ES将索引划分为多份shard的能力,称为分片。
创建一个索引的时候,可指定分片数量,每个分片本身就是一个功能完整且独立的“索引”,该“索引”可被放置到集群的任何节点
分片的作用:

  • 允许水平分割/扩展容量
  • 允许在分片上进行分布式、并行的操作,进而提高性能/吞吐量

对于一个分片如何分布,文档是如何聚合响应搜索请求,完全由ES管理,对于用户是透明的

  1. 副本replica

在分布式环境下,任何分片/节点都可能失效,导致index无法搜索,所以为了保证数据安全,会将每个index分片进行复制备份,这种拷贝称为副本replica
副本的作用:

  • 在分片/节点失效情况下,提供高可用性(注意到ES的副本分片从不与 原/master 分片置于同一节点上)
  • 扩展搜索量/吞吐量,因为搜索可在所有复制上并行运行

总之,每个索引可被分为多个分片,每个索引可被复制0-n次。一旦创建副本,每个索引就有了主分片和副本分片。分片和副本的数量可在索引创建时指定,创建完成后,可改变副本数量,但无法改变分片的数量
默认情况下,ES分片配置是5、副本数配置是1(如果集群至少2个节点,该索引将会有5个主分片、5个副本分片(完全拷贝),该索引总共有10个分片)

分词查询

举例说明:
文本:“我正在学习数据结构和算法”
对文本查询一般分为三种:

  1. 模糊查询:类似sql中的like查询
    “学习”、“数据结构”、“算法”能搜索到结果
  2. 精确搜索:文本内容与搜索关键词一致
    关键词一定要是“我正在学习数据结构和算法”才匹配
  3. 分词搜索:对搜索关键字和搜索内容都进行分词,只要匹配到一个分词内容,就命中相关内容
    “算法之美”也能搜索到结果,因为分词搜索,只需关键字的分词匹配到即可(用模糊查询是无法搜索出结果)

在ES中,使用term、match、match_phrase、keyword进行相关搜索
涉及多个关键字
text和keyword是数据类型,对磁盘待查询数据是否进行分词

  • text:分词,在写入磁盘时,分割成多个独立单词,然后存入倒排索引。查询时也是以单词维度进行匹配
  • keyword:不分词,存放整个短语

math和term是搜索方式,是数据查询时,要查询的短语是否进行分词

  • match:对搜索的内容进行分词,拿分词数据去倒排索引中查询
  • term:不对搜索内容进行分词,是完全匹配

数据准备,在索引base-product-spu-info中有一条数据

{
"spuName" : "【市场价2532】HUAWEI WATCH 2 Pro 4G智能手表 移动支付"
}

查看其分词结果:

GET base-product-spu-info/_analyze
{
"analyzer": "standard","text":  "【市场价2532】HUAWEI WATCH 2 Pro 4G智能手表 移动支付"
}
// 分词结果:市|场|价|2532|huawei|watch|2|pro|4g|智|能|手|表|移|动|支|付

term搜索

term搜索对搜索词不分词,但还是会对要搜索的字段进行分词。一旦加上keyword属性,就不对数据进行分词,变成精确搜索

注意:默认情况下,不加keyword属性,使用的是text

  1. 搜索关键字“智”(term+text)
GET base-product-spu-info/_search
{"query": {"term": {"spuName": {"value": "智"}}}
}
// 结果:搜索出数据QueryBuilders.termQuery("spuName", "智");
  1. 搜索关键字“智能”
    结果:无匹配数据(分词结果中无此分词)
  2. 搜索关键字“Pro”
    结果:无匹配数据
  3. 搜索关键字“pro”
    结果:搜索出数据
  4. 搜素关键字“【市场价2532】HUAWEI WATCH 2 Pro 4G智能手表 移动支付”
    结果:无匹配数据(因为搜索词未分词)
  5. 搜索关键字“【市场价2532】HUAWEI WATCH 2 Pro 4G智能手表 移动支付”【加上keyword关键字】(term+keyword)
GET base-product-spu-info/_search
{"query": {"term": {"spuName.keyword": {"value": "【市场价2532】HUAWEI WATCH 2 Pro 4G智能手表 移动支付"}}}
}
// 结果:搜索出数据

match搜索

match会对搜索词进行分词,再进行分词搜索(同时不加keyword的情况下,数据也会分词)

GET base-product-spu-info/_search
{"query": {"match": {"spuName": "手机"}}
}
// 结果:搜索出数据(分词为“手|机”,命中数据分词)QueryBuilders.matchQuery("spuName", "手机");

match_phrase搜索

match_phrase搜索为短语搜索,要求短语中所有分词必须同时出现在文档中,同时位置必须一致

GET base-product-spu-info/_search
{"query": {"match_phrase": {"spuName": "智能手表"}}
}
// 结果:搜索出数据QueryBuilders.matchPhraseQuery(“spuName”,"智能手表");

假若搜索关键字“智能手表1”,则无法匹配数据,因为分词“1”并不在数据分词中,所以无法命中。同样的,“手表智能”也无法命中

match_phrase_prefix

与match_phrase用法类似,区别在于,它允许对最后一个词条进行前缀匹配

GET base-product-spu-info/_search
{"query": {"match_phrase_prefix": {"spuName": "智能手表"}}
}
// 结果:搜索出数据
QueryBuilders.matchPhrasePrefixQuery("spuName","智能手表")

说明:此处“智能手表”进行分词,其中“智|能|手”与分词进行匹配,“表”可进行前缀匹配,类似“表%”,意味着若分词表中存在“表现、表示、表哥我出来了哦”等分词时,也能命中。

总结

  • token:分词后的单词,小写
  • start_offset:在短语中的开始位置
  • end_offset:短语中的结束位置
  • position:单词在短语中的位置,即第几个单词

总结:比如有一个文档字段“717 Hendrickson Place”,分词结果如上图:

  1. 对关键字“717 Hendrickson Place”使用【term+keyword】搜索
    结果:有结果(关键词不分词,精确匹配)
  2. 对关键字“717 Hendrickson Place01”使用【term+keyword】搜索
    结果:无匹配结果(改动了Place)
  3. 对关键字“717 Hendrickson Place”使用【match+keyword】搜索
    结果:有结果(数据字段不分词,精确匹配)
  4. 对关键字“717 Hendrickson Place01”使用【match+keyword】搜索
    结果:无匹配结果(数据字段不分词,精确匹配)
  5. 对关键字“717 Hendrickson Place”使用【term+text】搜索
    结果:无匹配结果(关键词未分词,字段数据分词,“717 Hendrickson Place”未名中分词)
  6. 对关键字“717 Hendrickson Place”使用【match+text】搜索
    结果:有结果(关键词和字段数据都分词,“717”分词命中)
  7. 对关键字“717 Hendrickson Place01”使用【match+text】搜索
    结果:有结果(这里改动了Place,“717”分词命中)
  8. 对关键字“Hendrickson”使用【term+text】搜索
    结果:无匹配结果(关键词未分词,字段数据分词,分词未命中)
  9. 对关键字“hendrickson”使用【term+text】搜索
    结果:有结果(Hendrickson改为小写 hendrickson)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/217199.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt之Ui样式表不影响子类的配置

Qt之Ui样式表不影响子类的配置 问题 在ui界面上布局时,当对容器进行样试设计时,会对容器内其它成员对象也进行了修改 分析 对应*.ui文件内容 从这个写法来看,它的样式属性会影响其成员对象样式属性。 解决方法 在容器的样式表中写时适…

C语言之文件操作

目录 一、文件是什么 1.1 程序文件 1.2 数据文件 1.3 文件名 二、文件的作用 三、二进制文件和文本文件 四、文件的打开和关闭 4.1 流和标准流 (1)流 (2)标准流 4.2 文件指针 4.3 文件的打开和关闭 (1&a…

LinuxC中进程通信

LinuxC中进程通信 信号(Signals):Linux 提供了信号机制,允许一个进程向另一个进程发送信号以通知特定事件的发生。这是一种轻量级的通信机制,通常用于处理异步事件。您可以使用 kill 命令或 kill 函数来发送信号&…

CleanMyMac2024绿色免费激活码序列号

2024CleanMyMac免费mac下载版是一款简单实用的PC清洁管理工具,电脑刚装完系统的时候运行速度超级快,随着时间的推移,你会发现越来越慢,经常会反应卡顿,越来越多的垃圾文件占用了你的磁盘空间,各种过时的日志…

EM的理论基础

1 EM定义​ 电迁移(Electro-Migration)是指在外加电场下,电子和金属原子之间的动量转移导致材料的运动。这种动量传递导致金属原子(比如Cu原子)从其原始位置移位,如图7-1。这种效应随着导线中电流密度的增加而增加,并且在更高的温度下,动量传递变得更加严重。因此,在先…

浮动的魅力与挑战:如何在前端设计中巧妙运用浮动(下)

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

TikTok与虚拟现实的完美交融:全新娱乐时代的开启

TikTok,这个风靡全球的短视频平台,与虚拟现实(VR)技术的深度结合,为用户呈现了一场全新的娱乐盛宴。虚拟现实技术为TikTok带来了更丰富、更沉浸的用户体验,标志着全新娱乐时代的开启。本文将深入探讨TikTok…

多线程------ThreadLocal详解

目录 1. 什么是 ThreadLocal? 2. 如何使用 ThreadLocal? 3. ThreadLocal 的作用 4. ThreadLocal 的应用场景 5. ThreadLocal 的注意事项 我的其他博客 ThreadLocal 是 Java 中一个很有用的类,它提供了线程局部变量的支持。线程局部变量…

docker的资源控制

对容器使用宿主机的资源进行限制。例如:cpu、内容、磁盘I/O docker使用Linux自带的功能Cgroup功能进行控制 Cgroup是什么? Cgroup:Control grouos是Linux内核系统提供的一种可以限制、记录、隔离进程组所使用的物理资源机制。 docker借助…

鸿蒙(HarmonyOS)北向开发项目编译问题汇总

运行Hello World Hello World 工程可以运行在模拟器中,或者运行在真机设备中。本示例先以选择将 Hello World 工程运行在模拟器中进行说明,如果选择运行在真机设备中,需要先对工程进行签名,然后才能运行在真机设备中。 DevEco S…

el-table自定义表格数据

如上所示: 表格内的数据是:当前班级所在名次段的人数 / 当前班级1至n名的累计人数 5/12 也就是 5/75 需要变更为: 截至到当前名次段总人数(上次考试) / 截至到当前名次段总人数(本次考试&#xff09…

排序的简单理解(上)

1. 排序的概念及引用 1.1 排序的概念 排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作(按照我们的需求能够有序的将数据信息排列起来)。 稳定性:假…

工业级路由器在货运物流仓储管理中的应用

工业级路由器在货运物流仓储管理中扮演着重要的角色,为整个物流系统提供了稳定可靠的网络连接和数据传输支持。下面将从以下几个方面介绍工业级路由器在货运物流仓储管理中的应用。 实时监控和追踪:工业级路由器通过与各种传感器、监控设备和物联网设备的…

骨灰级程序员那些年曾经告诉我们的高效学习的态度

一、背景 以前阅读陈皓老师的左耳听风专栏中关于如何高效学习的总结让我收货颇丰,今天总结了一下,分享给大家 老师说: 学习是一件“逆人性”的事,就像锻炼身体一样,需要人持续付出,会让人感到痛苦&#…

Layui实现自定义的table列悬停事件并气泡提示信息

1、概要 使用layui组件实现table的指定列悬停时提示信息&#xff0c;因为layui组件中没有鼠标悬停事件支持&#xff0c;所以需要结合js原生事件来实现这个功能&#xff0c;并结合layui的tips和列的templte属性气泡提示实现效果。 2、效果图 3、代码案例 <!DOCTYPE html&g…

2023自动化测试框架的设计原则你都知道吗?快来看!

1.代码规范 测试框架随着业务推进&#xff0c;必然会涉及代码的二次开发&#xff0c;所以代码编写应符合通用规范&#xff0c;代码命名符合业界标准&#xff0c;并且代码层次清晰。特别在大型项目、多人协作型项目中&#xff0c;如果代码没有良好的规范&#xff0c;那么整个框架…

Linux进程控制

Linux进程控制 一.进程创建(fork函数)二.进程终止1.退出码的概念2.查看错误码3.查看错误码对应的错误信息1.strerror2.函数退出时的错误码2.自定义错误码 4.进程异常5.exit终止进程6.总结 三.进程等待1.为什么要有进程等待2.wait3.waitpid1.函数介绍2.演示3.利用位运算分别取出…

网工内推 | IT经理,50k*14薪,NP以上即可,七险一金

01 海天瑞声 招聘岗位&#xff1a;IT经理 职责描述&#xff1a; 1、IT基础架构的方案制定、实施和日常维护&#xff0c;包括机房建设运维、服务器配置及运维、网络规划及运维、上网行为管理、电话、电话、监控、门禁等各类弱电系统搭建及运维 2、负责公司环境及网络安全防御体…

【论文阅读】深度学习方法在数字岩石技术中的应用进展

【论文名称】Advances in the application of deep learning methods to digital rock technology 深度学习方法在数字岩石技术中的应用进展 【论文来源】EI检索 【作者单位】长江大学地球物理与油气资源学院、加拿大阿尔伯塔大学土木与环境工程系、东北石油大学地球科学学院、…

微信小程序:用map()将对象数组中的某一项组合成新数组

使用分析 使用map()方法来遍历 info 数组中的每个元素&#xff0c;并整合每一个对象中的某一项进行新数组的重组 效果展示 这里是查询对象数组中的全部name值 原始数据 提取出name的数组 核心代码 var infos items.map(item > item.name); 完整代码&#xff08;用微信小程…