【ES】--Elasticsearch的分词器详解

【ES】--Elasticsearch的分词器详解

news/2024/11/16 8:28:53/文章来源:https://blog.csdn.net/xunmengyou1990/article/details/136101219

目录

一、前言
二、分词器原理
- 1、常用分词器
- 2、ik分词器模式
- 3、指定索引的某个字段进行分词测试
- - 3.1、采用ts_match_analyzer进行分词
  - 3.2、采用standard_analyzer进行分词
三、如何调整分词器
- 1、已存在的索引调整分词器
- 2、特别的词语不能被拆开

一、前言

最近项目需求，针对客户提出搜索引擎业务要做到自定义个性化，如输入简体或繁体能能够互相查询、有的关键词不能被分词搜索等等。为更好解决这些问题，“分词器”的原理和使用至关重要。

二、分词器原理

当 ES 自带的分词器不能满足需求的情况下，可以通过组合不同的 Character Filters,Tokenizer,Token Filter 来实现。
在这里插入图片描述
首先字符串经过字符过滤器（character filter），他们的工作是在分词前处理字符串。字符过滤器能够去除 HTML 标记，或者转化为“&”为“and”。
然后，分词器（tokenizer）被分词为独立的词【按照一定的规则，对字符串进行划分单词】。一个简单的分词器（tokenizer）可以根据空格或逗号将词语分开。
最后，每个词都通过分词过滤器（Token filter）【将切分的单词进行加工、大小写转换、删除stopwords、增加同义词等】，它可以修改词（例如将“Quick”转为小写），去掉词（例如停用词像“a”、“and”、“the”等等），或者增加词（例如同义词像“a”、“and”、“the”等等）或者增加词（例如同义词像“jump”

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/256325.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

[C#]winform制作圆形进度条好用的圆环圆形进度条控件和使用方法

[C#]winform制作圆形进度条好用的圆环圆形进度条控件和使用方法

【创建圆形进度条流程】在C# WinForms应用程序中创建一个圆形进度条（通常用作仪表盘的显示）可以通过多种方式实现。下面是一个简单的例子，演示如何使用System.Drawing命名空间中的图形绘制功能来绘制一个基本的圆形进度条。首先&#xff0…

阅读更多...

在vscode上传项目到gitee

在vscode上传项目到gitee

一、在Gitee上新建一个仓库 Tip：若已经创建过了，直接跳到第二部分看VsCode如何上传代码到Gitee 创建仓库比较简单，下面两张图就是整个过程，这里不在赘述，具体如下： 二、VsCode连接Gitee上创建的仓…

阅读更多...

第二篇【传奇开心果微博系列】Python微项目技术点案例示例：成语接龙游戏

第二篇【传奇开心果微博系列】Python微项目技术点案例示例：成语接龙游戏

传奇开心果微博系列系列微博目录Python微项目技术点案例示例系列微博目录一、微项目目标二、雏形示例代码三、扩展整体思路四、玩家输入示例代码五、成语判断示例代码六、回答判断示例代码七、电脑判断示例代码八、游戏结束示例代码九、界面优化示例代码十、扩展成语库示例代…

阅读更多...

数据结构——6.1 图的基本概念

数据结构——6.1 图的基本概念

第六章图 6.1 图的基本概念概念图的概念：G由点集V和边集E构成，记为G(V,E)，边集可以为空，但是点集不能为空注意：线性表可以是空表，树可以是空树，但图不可以是空，即V一定是非空集…

阅读更多...

【MATLAB】GA_BP神经网络回归预测算法

【MATLAB】GA_BP神经网络回归预测算法

有意向获取代码，请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 GA_BP神经网络回归预测算法结合了遗传算法（Genetic Algorithm, GA）和BP神经网络（Backpropagation Neural Network, BPNN），用于解…

阅读更多...

蓝桥杯嵌入式第8届真题(完成) STM32G431

蓝桥杯嵌入式第8届真题(完成) STM32G431

蓝桥杯嵌入式第8届真题(完成) STM32G431 题目分析和代码对比第六届和第七届，这届的题目在逻辑思维上确实要麻烦不少，可以从题目看出，这届题目对时间顺序的要求很严格，所以就可以使用状态机的思想来编程，拿到类似题…

阅读更多...

Python基于大数据的电影预测分析系统

Python基于大数据的电影预测分析系统

博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝30W、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

阅读更多...

介绍 MSTest Runner – CLI、Visual Studio 等

介绍 MSTest Runner – CLI、Visual Studio 等

作者：Amaury Lev Marco Rossignoli Jakub Jareš 排版：Alan Wang 我们很高兴推出 MSTest 运行器，这是一款全新的轻量级 MSTest 测试运行器。这个新的运行器使测试更加便携和可靠，运行速度更快，并且具有可扩展性&#x…

阅读更多...

leetcode 461. 汉明距离

leetcode 461. 汉明距离

比较简单的一题，先对两个整数进行异或操作，会将两个整数二进制形式中各个数字进行异或操作，不同的数字则为1，再通过移位操作统计得到的二进制数中为1的个数，即为所求。 Java代码如下： class Solution {pub…

阅读更多...

Android SystemConfig相关

Android SystemConfig相关

SystemConfig在哪里初始化它声明在PackageManagerService类的静态方法main()中。在该方法中间定义Injector类对象时，作为它的构造参数。它是调用的SystemConfig.getInstance()实现初始化，之后能通过Injector类对象的getSystemConfig()得到SystemConfig类…

阅读更多...

计算机网络——网络安全

计算机网络——网络安全

计算机网络——网络安全前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家， [跳转到网站](https://www.captainbed.cn/qianqiu) 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 网络安全何…

阅读更多...

PyTorch深度学习实战（26）——多对象实例分割

PyTorch深度学习实战（26）——多对象实例分割

PyTorch深度学习实战（26）——多对象实例分割 0. 前言1. 获取并准备数据2. 使用 Detectron2 训练实例分割模型3. 对新图像进行推断小结系列链接 0. 前言我们已经学习了多种图像分割算法，在本节中，我们将学习如何使用 Detectron2 …

阅读更多...

单页404源码

单页404源码

<!doctype html> <html> <head> <meta charset"utf-8"> <title>简约 404错误页</title><link rel"shortcut icon" href"./favicon.png"><style> import url("https://fonts.googleapis.co…

阅读更多...

C# 字体大小的相关问题

C# 字体大小的相关问题

设置字体大小无法这么写， button1.Font.Size 20； 这个是只读属性； 把字体大小改为16， button2.Font new Font(button2.Font.Name, 16); 程序运行的时候先看一下窗体和控件的默认字体尺寸，都是9；然后点b…

阅读更多...

jsp教务管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

jsp教务管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 教务管理系统是一套完善的java web信息管理系统，对理解JSP java编程开发语言有帮助，系统具有完整的源代码和数据库，系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发，数据库为Mysql5.0&…

阅读更多...

人脸追踪案例及机器学习认识

人脸追踪案例及机器学习认识

1.人脸追踪机器人初制用程序控制舵机运动的方法与机械臂项目完全相同。由于摄像头的安装方式为上下倒转安装，我们在编写程序读取图像时需使用 flip 函数将图像上下翻转。现在，只需要使用哈尔特征检测得到人脸在图像中的位置，再指示舵机运…

阅读更多...

Docker容器输入汉字触发自动补全

Docker容器输入汉字触发自动补全

一、描述输入汉字自动触发补全： Display all 952 possibilities? (y or n)是因为容器中没有中文字符集和中文字体导致的，安装中文字体，并设置字符集即可。二、解决 1、安装字符集 （1）查看系统支持的字符集 lo…

阅读更多...

使用Cargo创建、编译与运行Rust项目

使用Cargo创建、编译与运行Rust项目

在 Rust 开发中，Cargo 是一个非常重要的工具，它负责项目的构建、管理和依赖管理。以下是如何使用 Cargo 创建、编译和运行 Rust 项目的详细步骤。 1. 创建新项目首先确保你已经在计算机上安装了 Rust 和 Cargo。然后，在命令行中输入以下命…

阅读更多...

HarmonyOS 横屏调试与真机横屏运行

HarmonyOS 横屏调试与真机横屏运行

我们有些程序需要横屏才能执行出效果我们在预览器上点击如下图指向出就进入一个横屏调试了但我们真机运行依旧是竖着的我们如下图找到 module.json5 在 abilities 下面第一个对象最下面加上 "orientation": "landscape"然后我们再真机运…

阅读更多...

【深度学习】基于多层感知机的手写数字识别

【深度学习】基于多层感知机的手写数字识别

案例2：构建自己的多层感知机: MNIST手写数字识别相关知识点: numpy科学计算包，如向量化操作，广播机制等 1 任务目标 1.1 数据集简介 MNIST手写数字识别数据集是图像分类领域最常用的数据集之一，它包含60,000张训练图片&am…

阅读更多...

最新文章

推荐文章