【ES】--Elasticsearch的分词器深度研究

一、问题描述及分析
二、analyze分析器原理
三、 multi-fields字段支持多场景搜索(如同时简繁体、拼音等)
- 1、ts_match_analyzer配置分词
- 2、ts_match_all_analyzer配置分词
- 3、ts_match_1_analyzer配置分词
- 4、ts_match_2_analyzer配置分词
- 5、ts_match_3_analyzer配置分词
- 6、ts_match_4_analyzer配置分词
- 7、ts_match_5_analyzer配置分词
- 8、ts_match_kw_analyzer配置分词

一、问题描述及分析

面对现实很多复杂情况，默认的ES搜索引擎方式已经不能支持。下面将针对常见的问题进行分析，如何使用ES的分词器达到预定效果。
常见有ik、pinyin、tsconvert三种分词器，
elasticsearch-analysis-ik
elasticsearch-analysis-pinyin
elasticsearch-analysis-stconvert
现有问题场景要求
(1)、对检索结果，要能同时搜索到简繁体、能搜索到拼音等
(2)、搜索的结果不要太零散(不要把关键词分成一个一个的字)
(3)、不希望搜索的关键词匹配到语气助词
(4)、一些特定的词语（如’中国的炎黄子孙’）不希望被分词，要能够整体匹配
面对上面等问题，分析如下：
(1)、对检索结果，要能同时搜索到简繁体、能搜索到拼音等
—对要搜索的字段进行multi-fields属性设置，使该字段能满足多场景的搜索
(2)、搜索的结果不要太零散(不要把关键词分成一个一个的字)
—ES默认的standard分词器会把汉字分为一个个汉字。ik分词器主要有ik_smart【最少切分，最粗精度】、ik_max_word【最多切分，最细精度】两种模式。
(3)、不希望搜索的关键词匹配到语气助词
—使用“停用词”来过滤掉语气助词。排除停用词可以加快建立索引的速度，减小索引库文件的大小，并且还可以提高查询的准确度。【参考https://blog.csdn.net/qq_29864051/article/details/124831207】
(4)、一些特定的词语（如’中国的炎黄子孙’）不希望被分词，要能够整体匹配
—可以通过对ik分词器添加自定义词典。另外，为了切换实际场景，可以采用“热更新自定义词典”方案。

二、analyze分析器原理

在这里插入图片描述
Char Filter:字符过滤器的工作是执行清除任务，例如剥离 HTML 标记，还有上面的把 “&” 转换为 “and” 字符串。
Tokenizer:将文本基于任何规则拆分为称为标记的术语。一般此时如ik分词器的模式起作用。
Token filter:一旦创建了token，它们就会被传递给 token filter，这些过滤器会对 token 进行规范化。 Token filter 可以更改 token，删除术语或向 token 添加术语。

三、 multi-fields字段支持多场景搜索(如同时简繁体、拼音等)

给某个字段设置多个属性的fields。如下所示

   "file_extension": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256,"normalizer": "lowercase_normalizer"},"pinyin": {"type": "text","analyzer": "pinyin_analyzer"},"pure": {"type": "text","analyzer": "ts_match_all_analyzer"},"pure1": {"type": "text","analyzer":