【ElasticSearch】IK分词器中停用词问题

【ElasticSearch】IK分词器中停用词问题

news/2024/12/21 19:13:15/文章来源:https://blog.csdn.net/qq_20623849/article/details/138522955

问题描述

在ES中进行部分关键词搜索时，搜索无结果，如搜索【IT】

环境描述

中文分词插件

这里使用的是 analysis-ik

分词调试

POST test_index/_analyze
{"text":"IT Manager","analyzer": "ik_max_word"
}

分词结果,分词结果中不包含IT

{"tokens": [{"token": "manager","start_offset": 3,"end_offset": 10,"type": "ENGLISH","position": 0}]
}

原因分析

根据项目：lucene
我们可以看到在 cjk（中文、日文和韩文）目录下的停用词中，包含了该停用词，从而导致索引中不会包含该停用词。
在这里插入图片描述
项目：https://github.com/infinilabs/analysis-ik 中的停用词，extra_stopword.dic

解决方案

在实践过程中，我们通过自定义stopword的方式(如下定义)，无法解决该问题

{"settings": {"analysis": {"filter": {"chinese_stop": {"type":       "stop","stopwords":  [] }},"analyzer": {"ik_max_word_custom": {"type":       "custom","tokenizer":  "ik_max_word","filter": ["chinese_stop"]}}}}
}

方案一：
在配置文件中移除相应的停用词
在这里插入图片描述
该方式效果如下：
分词请求：

POST test_index/_analyze
{"text":"IT Manager","analyzer": "ik_max_word"
}

分词结果：

{"tokens": [{"token": "it","start_offset": 0,"end_offset": 2,"type": "ENGLISH","position": 0},{"token": "manager","start_offset": 3,"end_offset": 10,"type": "ENGLISH","position": 1}]
}

方案二：
我们可以将对应的字段使用standard分词器存储到另一个字段，如 field.en ，在匹配的时候，两个字段同时进行匹配即可
值得注意的是，这里我们不能去使用english的分词器，一个是因为 english 中也会过滤掉一些停用词，如这里的【IT】，另外其还会自动索引为词根。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/321563.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

一体化设计的ATA（FXS网关）设计——电源插头、WiFi、双网口、S口、USB等接口集于一身

一体化设计的ATA（FXS网关）设计——电源插头、WiFi、双网口、S口、USB等接口集于一身

目录集成电源插头集成WiFi集成USB两个网口FXS接口（Phone）集成创新 ATA（FXS网关）已经走过几十年的发展，很难有创新。下面介绍的这款ATA（FXS网关）通过一体化设计的集成创新，成为一款…

阅读更多...

SSM【Spring SpringMVC Mybatis】——Maven

SSM【Spring SpringMVC Mybatis】——Maven

目录 1、为什么使用Maven 1️⃣获取jar包 2️⃣添加jar包 3️⃣使用Maven便于解决jar包冲突及依赖问题 2、什么是Maven 3、Maven基本使用 3.1 Maven准备 3.2 Maven基本配置 3.3 Maven之Helloworld 4、Maven及Idea的相关应用 4.1 将Maven整合到IDEA中 4.2 在IDEA中新建…

阅读更多...

力扣437. 路径总和 III

力扣437. 路径总和 III

Problem: 437. 路径总和 III 文章目录题目描述思路复杂度Code 题目描述思路 1.定义int类型函数rootSum(root, targetSum)，用于求取每一个节点等于目标函数的路径数： 1.1.易知rootSum(root, targetSum)求出的数量等于rootSum(root.left, targetSum - va…

阅读更多...

excel如何将多列数据转换为一列？

excel如何将多列数据转换为一列？

这个数据整理借用数据透视表也可以做到： 1.先将数据源的表头补齐，“姓名” 2.点击插入选项卡，数据透视表，在弹出对话框中，数据透视位置选择现有工作表，（实际使用时新建也没有问题）…

阅读更多...

机器学习项目实践-基础知识部分

机器学习项目实践-基础知识部分

环境建立我们做项目第一步就是单独创建一个python环境，Python新的隔离环境创建：python -m venv ml 使用：.\Scripts\activate python -m venv ml 是在创建一个名为 ml 的虚拟环境，这样系统会自动创建一个文件夹ml，…

阅读更多...

crossover怎么打开软件 mac怎么下载steam crossover下载的软件怎么运行

crossover怎么打开软件 mac怎么下载steam crossover下载的软件怎么运行

CrossOver是一款Mac和Linux平台上的类虚拟机软件，通过CrossOver可以运行Windows的可执行文件。如果你是Mac用户且需要使用CrossOver，但是不知道CrossOver怎么打开软件，如果你想在Mac电脑上玩Windows游戏，但不知道怎么下载Steam&am…

阅读更多...

Springboot 集成 Consul 实现服务注册中心-05

Springboot 集成 Consul 实现服务注册中心-05

因为后续很多模块都要用到注册中心，所以此处先实现此模块。 Consul简介 Consul是一个开源的服务发现和配置管理工具，具有跨平台、运行高效等特点。它由HashiCorp公司开发，并使用Go语言编写。Consul主要用于实现分布式系统中的服务发现、健康…

阅读更多...

把项目打包成Maven Archetype（多模块项目脚手架）

把项目打包成Maven Archetype（多模块项目脚手架）

1、示例项目 2、在pom.xml中添加archetype插件 <plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-archetype-plugin</artifactId><version>3.2.0</version> </plugin>3、打包排除某些目录当我们使用…

阅读更多...

扭蛋机小程序在互联网浪潮中的崛起与发展

扭蛋机小程序在互联网浪潮中的崛起与发展

随着互联网的快速发展，各种线上娱乐方式层出不穷，其中扭蛋机小程序凭借其独特的魅力，在互联网浪潮中迅速崛起并发展壮大。扭蛋机小程序不仅打破了传统扭蛋机的地域限制和操作不便，还融入了丰富的互动元素和便捷性，满足…

阅读更多...

Jmeter页面汉化和字体显示过小调整

Jmeter页面汉化和字体显示过小调整

在频繁解压使用Jmeter的时候，经常会遇到需要将页面的英文调整为中文，页面文字和编辑区域内容文字显示较小的问题，记录一下方便以后查阅。 1.页面汉化 Jmeter在解压启动之后页面显示是英文，如果需要修改为中文，可以修改…

阅读更多...

做题速度太慢了，面不上

做题速度太慢了，面不上

没办法，之前练了一个月的sql。两个月不写，现在差不多忘干净了。工作空窗期，或者休息期不能太久，不然学再多的内容都可能会忘完的。 sql题，腾讯四道sql题，限时45分钟完成。我只做了一道，还没做完…

阅读更多...

java接受入参是xml格式参数demo

java接受入参是xml格式参数demo

java接受入参是xml格式参数demo 依赖demo1. xml入参定义2.接口定义3. postman请求4. 结果注解说明依赖 pom依赖 jackson-dataformat-xml <dependency><groupId>com.fasterxml.jackson.dataformat</groupId><artifactId>jackson-dataformat-xml</…

阅读更多...

基于web的物流管理系统

基于web的物流管理系统

文章目录项目介绍主要功能截图：部分代码展示设计总结项目获取方式 🍅 作者主页：超级无敌暴龙战士塔塔开 🍅 简介：Java领域优质创作者🏆、简历模板、学习资料、面试题库【关注我，都给你】 &…

阅读更多...

顺序表的实现（迈入数据结构的大门）

顺序表的实现（迈入数据结构的大门）

什么是数据结构数据结构是由：“数据”与“结构”两部分组成数据与结构数据：如我们所看见的广告、图片、视频等，常见的数值，教务系统里的（姓名、性别、学号、学历等等）； 结构：当…

阅读更多...

项目经理【人】任务

项目经理【人】任务

系列文章目录【引论一】项目管理的意义【引论二】项目管理的逻辑【环境】概述【环境】原则【环境】任务【环境】绩效【人】概述【人】原则【人】任务一、定义团队的基本规则&塔克曼阶梯理论 1.1 定义团队的基本规则 1.2 塔克曼阶梯理论二、项目经理管理风格 …

阅读更多...

uts插件开发-继uniapp原生插件nativeplugins,uts插件开发可直接操作原生安卓sdk等，支持uniappx，支持源码授权价格等等

uts插件开发-继uniapp原生插件nativeplugins,uts插件开发可直接操作原生安卓sdk等，支持uniappx，支持源码授权价格等等

1.创建uts项目 2.创建uts插件cf-takepic 3.在index.uts中编写原生安卓代码，首先定义一个函数方法，在页面中看是否可引用成功 uts函数代码 /*** 拍照函数*/ export const takepicfunction():void{console.log("11111111") } index.vue代码 …

阅读更多...

简单两步将Lllama、Qwen等开源大模型安装到自己的电脑上

简单两步将Lllama、Qwen等开源大模型安装到自己的电脑上

现在已经有非常多优秀的开源大语言模型了，比如Command R、Mistral、Qwen、MiniMax、Baichuan、Phi3等，其中Lllama3和Qwen等已经和GPT4的性能比较接近了。如果能把这些免费的开源大模型部署到本地电脑或手机上，可以完全自由的使用&#xff0…

阅读更多...

Misc 流量分析

Misc 流量分析

流量分析简介网络流量分析是指捕捉网络中流动的数据包，并通过查看包内部数据以及进行相关的协议、流量分析、统计等来发现网络运行过程中出现的问题。在CTF比赛中，以及各种技能大赛对于流量包的分析取证是一种十分重要的题型。通常这类题目都是会提供…

阅读更多...

DirClass

DirClass

DirClass 通过分析，发现当接收到DirClass远控指令后，样本将返回指定目录的目录信息，返回数据中的远控指令为0x2。相关代码截图如下： DelDir 通过分析，发现当接收到DelDir远控指令后，样本将删除指定目录…

阅读更多...

xv6源码分析 017

xv6源码分析 017

xv6源码分析 017 在buffer cache上面的就是logging层了，这一层主要的工作是维持每一个文件系统写入的操作的原子性。什么是原子性？通俗地来讲，原子性可以这样理解，如果一组操作（或者一个操作）在执行的时候…

阅读更多...

最新文章

推荐文章