文章目录
- 1. 什么是自动补全
- 2. 拼音分词器
- 2.1 初识拼音分词器
- 2.2 下载拼音分词器
- 2.3 安装拼音分词器
- 2.4 测试拼音分词器
- 3. 自定义分词器
- 3.1 拼音分词器存在的问题
- 3.2 分词器(analyzer)的组成
- 3.3 如何自定义分词器
- 3.4 拼音分词器的可选参数
- 3.5 配置自定义分词器的tokenizer和filter
- 3.6 如何使用自定义分词器
- 3.7 测试自定义分词器
- 3.7.1 直接测试
- 3.7.2 插入文档测试
- 3.8 使用自定义分词器要注意的事项
- 4. DSL实现自动补全查询
- 4.1 字段的类型的约束
- 4.2 查询语法
- 5. 自动补全案例
- 5.1 准备工作
- 5.1.1 创建hotel索引库
- 5.1.2 导入测试工程
- 5.1.3 导入酒店数据到数据库中
- 5.1.4 将数据库中的数据导入到ElasticSearch
- 5.2 测试自动补全功能
- 6. RestAPI实现自动补全查询
- 7. 综合案例:实现搜索框自动补全
视频教程:SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务
阅读本文前可以先阅读以下文章:
- ElasticSearch快速入门——上篇(认识ElasticSearch、安装ElasticSearch、安装kibana、IK分词器、ElasticSearch中的基本概念、索引库操作、文档操作)
- ElasticSearch快速入门——下篇(在Java代码中操作ElasticSearch、JavaRestClient、操作索引库、操作文档、DSL查询、JavaRestClient查询、数据聚合)
- 通过docker启动ElasticSearch后为ElasticSearch设置用户和密码
1. 什么是自动补全
ElasticSearch 中的自动补全跟我们理解的自动补全不太一样,为了大家理解,我们来看一个案例
当我们在搜索框输入 sj 时,搜索框下方会显示以 sj 拼音首字母开头的词条(如手机、湿巾、数据线、史记、书架等),这个功能被称为自动补全
自动补全功能可以让用户尽可能地搜索到想要的东西,而不需要打出完整的内容
2. 拼音分词器
要想实现自动补全功能,我们需要先学习一下拼音分词器,因为自动补全功能是基于拼音分词器实现的
2.1 初识拼音分词器
拼音分词器的官网:analysis-pinyin
拼音分词器跟我们学过的 IK 分词器相似,都是 ElasticSearch 的一个插件
2.2 下载拼音分词器
下载地址:v7.17.18
本次演示使用的 ElasticSearch 版本为 7.17.18
其它 ElasticSearch 版本对应的拼音分词器的下载地址:Tags
2.3 安装拼音分词器
解压完成之后,将拼音分词器上传到 ElasticSearch 的 plugin 目录下(本次演示是通过 docker 安装 ElasticSearch 的)
先将拼音分词器上传到服务器,一般是当前用户的目录
cd ~
接着将拼音分词器复制到 ElasticSearch 的 plugin 的目录下
sudo cp elasticsearch-analysis-pinyin-7.17.18 -r /var/lib/docker/volumes/elasticsearch-plugins/_data
最后重启 ElasticSearch 容器
sudo docker restart elasticsearch
2.4 测试拼音分词器
我们在 Kibana 提供的控制台中测试拼音分词器是否生效
在浏览器打开 Kibana 提供的控制台
http://127.0.0.1:5601/app/dev_tools#/console
输入以下内容测试拼音分词器是否生效
POST /_analyze
{"text": ["练习时长两年半"],"analyzer": "pinyin"
}
测试结果如下,主要包含两部分内容:
- 每个字的完整拼音
- 每个字的拼音首字母的合并
{"tokens" : [{"token" : "lian","start_offset" : 0,"end_offset" : 0,"type" : "word","position" : 0},{"token" : "lxsclnb","start_offset" : 0,"end_offset" : 0,"type" : "word","position" : 0},{"token" : "xi","start_offset" : 0,"end_offset" : 0,"type" : "word","position" : 1},{"token" : "shi","start_offset" : 0,"end_offset" : 0,"type" : "word","position" : 2},{"token" : "chang","start_offset" : 0,"end_offset" : 0,"type" : "word","position" : 3},{"token" : "liang","start_offset" : 0,"end_offset" : 0,"type" : "word","position" : 4},{"token" : "nian","start_offset" : 0,"end_offset" : 0,"type" : "word","position" : 5},{"token" : "ban","start_offset" : 0,"end_offset" : 0,"type" : "word","position" : 6}]
}
3. 自定义分词器
3.1 拼音分词器存在的问题
拼音分词器还无法正常用于生产环境,因为拼音分词器存在一些问题
以 “练习时长两年半” 这句话为例,拼音分词器存在以下问题:
- “练习时长两年半” 这句话没有被分词,而是作为一个整体出现
- 把 “练习时长两年半” 这句话中的每一个字都形成了一个拼音(用处不大)
- 分词后的结果只剩下拼音,没有汉字
其实我们很少使用拼音搜索,大多数情况下我们都是使用中文去搜索的,分词后有拼音只是锦上添花,分词后的结果中汉字是必须保留的,所以我们需要对拼音分词器做一些配置,也就是自定义分词器
3.2 分词器(analyzer)的组成
ElasticSearch 中分词器(analyzer)的组成有三部分:
- character filters:在 tokenizer 之前对文本进行处理,例如删除字符、替换字符
- tokenizer:将文本按照一定的规则切割成词条(term),例如 keyword(不分词)、ik_smart 等
- tokenizer filter:将 tokenizer 输出的词条做进一步处理,例如大小写转换、同义词处理、拼音处理等
3.3 如何自定义分词器
要想自定义分词器,一定要在创建索引库的时候去设置
我们可以在创建索引库时,通过 settings 来配置自定义的 analyzer(分词器)
自定义分词器时可以只设置分词器(analyzer)的某个部分
PUT /test
{"settings": {"analysis": {"analyzer": {"my_analyzer": {"tokenizer": "ik_max_word","filter": "pinyin"}}}}
}
tokenizer 我们使用 ik_max_word,先分词,分好词后再将词条交给拼音分词器处理,这样做可以解决拼音分词器没有分词的问题
但是拼音分词器还存在两个问题:分词后的每一个字都形成了一个拼音、分词后的结果只剩下拼音,没有汉字
3.4 拼音分词器的可选参数
我们需要对拼音分词器做进一步的定制
在拼音分词器的官网上,给出了很多的可选参数(Optional Parameters)
参数名称 | 含义 |
---|---|
keep_first_letter | 启用后,只保留每个汉字的第一个字母。例如,刘德华变为ldh。默认:true。 |
keep_separate_first_letter | 启用后,保留每个汉字的第一个字母,并分别显示。例如,刘德华变为l,d,h。默认:false。注意:这可能会因词频增加查询的模糊度。 |
limit_first_letter_length | 设置第一个字母结果的最大长度。默认:16。 |
keep_full_pinyin | 启用后,保留每个汉字的完整拼音。例如,刘德华变为[liu,de,hua]。默认:true。 |
keep_joined_full_pinyin | 启用后,将每个汉字的完整拼音连接起来。例如,刘德华变为[liudehua]。默认:false。 |
keep_none_chinese | 保留结果中的非汉字字母或数字。默认:true。 |
keep_none_chinese_together | 保留非汉字字母在一起。默认:true。例如,DJ音乐家变为DJ,yin,yue,jia。当设置为false时,DJ音乐家变为D,J,yin,yue,jia。注意:需要先启用keep_none_chinese。 |
keep_none_chinese_in_first_letter | 在首字母中保留非汉字字母。例如,刘德华AT2016变为ldhat2016。默认:true。 |
keep_none_chinese_in_joined_full_pinyin | 在连接的完整拼音中保留非汉字字母。例如,刘德华2016变为liudehua2016。默认:false。 |
none_chinese_pinyin_tokenize | 如果非汉字字母是拼音,将其拆分为单独的拼音词。默认:true。例如,liudehuaalibaba13zhuanghan变为liu,de,hua,a,li,ba,ba,13,zhuang,han。注意:需要先启用keep_none_chinese和keep_none_chinese_together。 |
keep_original | 启用后,保留原始输入。默认:false。 |
lowercase | 将非汉字字母转换为小写。默认:true。 |
trim_whitespace | 默认:true。 |
remove_duplicated_term | 启用后,移除重复的词以节省索引空间。例如,de的变为de。默认:false。注意:可能与位置相关的查询受到影响。 |
ignore_pinyin_offset | 在6.0版本之后,偏移量受到严格限制,不允许重叠的词。通过此参数,将允许重叠的词,忽略偏移量。请注意,所有与位置相关的查询或高亮将变得不正确。如果需要偏移量,请设置为false。默认:true。 |
3.5 配置自定义分词器的tokenizer和filter
PUT /test
{"settings": {"analysis": {"analyzer": {"my_analyzer": {"tokenizer": "ik_max_word","filter": "py"}},"filter": {"py": {"type": "pinyin","keep_full_pinyin": false,"keep_joined_full_pinyin": true,"keep_original": true,"limit_first_letter_length": 16,"remove_duplicated_term": true,"none_chinese_pinyin_tokenize": false}}}}
}
创建一个自定义的分词器my_analyzer
,使用ik_max_word
分词器进行中文分词,并通过pinyin
过滤器将中文词条转换为拼音,保留了原始中文词条和连接起来的全拼,同时限制了首字母长度并移除重复的词条
3.6 如何使用自定义分词器
自定义分词器创建好了之后,该怎么使用呢
要使用自定义分词器,我们需要在定义索引库字段(Mapping)的时候使用
PUT /test
{"settings": {"analysis": {"analyzer": {"my_analyzer": {"tokenizer": "ik_max_word","filter": "py"}},"filter": {"py": {"type": "pinyin","keep_full_pinyin": false,"keep_joined_full_pinyin": true,"keep_original": true,"limit_first_letter_length": 16,"remove_duplicated_term": true,"none_chinese_pinyin_tokenize": false}}}},"mappings": {"properties": {"name": {"type": "text","analyzer": "my_analyzer"}}}
}
3.7 测试自定义分词器
3.7.1 直接测试
POST /test/_analyze
{"text": ["练习时长两年半"],"analyzer": "my_analyzer"
}
测试结果
{"tokens" : [{"token" : "练习","start_offset" : 0,"end_offset" : 2,"type" : "CN_WORD","position" : 0},{"token" : "lianxi","start_offset" : 0,"end_offset" : 2,"type" : "CN_WORD","position" : 0},{"token" : "lx","start_offset" : 0,"end_offset" : 2,"type" : "CN_WORD","position" : 0},{"token" : "时长","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 1},{"token" : "shichang","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 1},{"token" : "sc","start_offset" : 2,"end_offset" : 4,"type" : "CN_WORD","position" : 1},{"token" : "两年","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 2},{"token" : "liangnian","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 2},{"token" : "ln","start_offset" : 4,"end_offset" : 6,"type" : "CN_WORD","position" : 2},{"token" : "两","start_offset" : 4,"end_offset" : 5,"type" : "COUNT","position" : 3},{"token" : "liang","start_offset" : 4,"end_offset" : 5,"type" : "COUNT","position" : 3},{"token" : "l","start_offset" : 4,"end_offset" : 5,"type" : "COUNT","position" : 3},{"token" : "年半","start_offset" : 5,"end_offset" : 7,"type" : "CN_WORD","position" : 4},{"token" : "nianban","start_offset" : 5,"end_offset" : 7,"type" : "CN_WORD","position" : 4},{"token" : "nb","start_offset" : 5,"end_offset" : 7,"type" : "CN_WORD","position" : 4}]
}
3.7.2 插入文档测试
测试数据如下(狮子和虱子的拼音是一样的)
POST /test/_doc/1
{"id": 1,"name": "狮子"
}
POST /test/_doc/2
{"id": 2,"name": "虱子"
}
我们先通过拼音 shizi 来搜索
GET /test/_search
{"query": {"match": {"name": "shizi"}}
}
成功搜索出狮子和虱子
但如果我们搜索的内容是掉入狮子笼怎么办呢
GET /test/_search
{"query": {"match": {"name": "掉入狮子笼怎么办"}}
}
从搜索结果中我们可以发现,我们明明搜索的是狮子,怎么虱子也搜索出来了?
这说明我们自定义的分词器有问题,在用拼音搜索时确实没问题,但是在用中文搜索时却搜出了同音词
3.8 使用自定义分词器要注意的事项
拼音分词器适合在创建倒排索引的时候使用,但不能在搜索的时候使用
创建倒排索引时
用户搜索狮子,搜索结果中居然出现了虱子
所以,我们在创建倒排索引时使用的分词器要和搜索时使用的分词器分开
怎么分开呢,在创建倒排索引时使用 my_analyzer 分词器,搜索时使用 ik_smart 分词器
PUT /test
{"settings": {"analysis": {"analyzer": {"my_analyzer": {"tokenizer": "ik_max_word","filter": "py"}},"filter": {"py": {"type": "pinyin","keep_full_pinyin": false,"keep_joined_full_pinyin": true,"keep_original": true,"limit_first_letter_length": 16,"remove_duplicated_term": true,"none_chinese_pinyin_tokenize": false}}}},"mappings": {"properties": {"name": {"type": "text","analyzer": "my_analyzer","search_analyzer": "ik_smart"}}}
}
我们删除 test 索引库之后,重写创建 test 索引库进行测试
DELETE /test
GET /test/_search
{"query": {"match": {"name": "掉入狮子笼怎么办"}}
}
测试结果如下(可以看到,搜索结果中没有虱子了)
4. DSL实现自动补全查询
ElasticSearch 提供了 Completion suggester 查询来实现自动补全功能,这个查询会匹配以用户输入内容开头的词条并
返回
4.1 字段的类型的约束
为了提高补全查询的效率,对于文档中字段的类型有一些约束:
- 参与补全查询的字段必须是 completion 类型
- 字段的内容一般是用来补全的多个词条形成的数组
4.2 查询语法
索引库
PUT test2
{"mappings": {"properties": {"title":{"type": "completion"}}}
}
测试数据
POST test2/_doc
{"title": ["Sony", "WH-1000XM3"]
}POST test2/_doc
{"title": ["SK-II", "PITERA"]
}POST test2/_doc
{"title": ["Nintendo", "switch"]
}
执行查询操作
POST /test2/_search
{"suggest": {"title_suggest": {"text": "s","completion": {"field": "title","skip_duplicates": true,"size": 10}}}
}
查询结果(查询结果中包含了文档的原始信息)
5. 自动补全案例
我们来做一个关于酒店数据的自动补全案例
5.1 准备工作
5.1.1 创建hotel索引库
PUT /hotel
{"settings": {"analysis": {"analyzer": {"text_anlyzer": {"tokenizer": "ik_max_word","filter": "py"},"completion_analyzer": {"tokenizer": "keyword","filter": "py"}},"filter": {"py": {"type": "pinyin","keep_full_pinyin": false,"keep_joined_full_pinyin": true,"keep_original": true,"limit_first_letter_length": 16,"remove_duplicated_term": true,"none_chinese_pinyin_tokenize": false}}}},"mappings": {"properties": {"id": {"type": "keyword"},"name": {"type": "text","analyzer": "text_anlyzer","search_analyzer": "ik_smart","copy_to": "all"},"address": {"type": "keyword","index": false},"price": {"type": "integer"},"score": {"type": "integer"},"brand": {"type": "keyword","copy_to": "all"},"city": {"type": "keyword"},"starName": {"type": "keyword"},"business": {"type": "keyword","copy_to": "all"},"location": {"type": "geo_point"},"pic": {"type": "keyword","index": false},"all": {"type": "text","analyzer": "text_anlyzer","search_analyzer": "ik_smart"},"suggestion": {"type": "completion","analyzer": "completion_analyzer","search_analyzer": "ik_smart"}}}
}
5.1.2 导入测试工程
测试工程的 Gitee 地址:hotel-demo
5.1.3 导入酒店数据到数据库中
SQL 脚本在测试工程的 doc 目录下
5.1.4 将数据库中的数据导入到ElasticSearch
导入数据前,更改与连接 ElasticSearch 相关的信息(如果 ElasticSearch 没有设置密码,可以去除 setHttpClientConfigCallback 代码)
运行 HotelDocumentTest
测试类中的 testBulkRequest 方法,将数据库中的数据导入到 ElasticSearch
在 Kibana 提供的控制台检查数据是否导入成功
GET /hotel/_search
{"query": {"match_all": {}}
}
5.2 测试自动补全功能
在 Kibana 提供的控制台测试自动补全功能
GET /hotel/_search
{"suggest": {"suggestions": {"text": "s","completion": {"field": "suggestion","skip_duplicates": true,"size": 10}}}
}
测试结果
6. RestAPI实现自动补全查询
构建请求参数的 API
结果解析
import cn.itcast.hotel.service.IHotelService;
import org.apache.http.HttpHost;
import org.apache.http.auth.AuthScope;
import org.apache.http.auth.UsernamePasswordCredentials;
import org.apache.http.impl.client.BasicCredentialsProvider;
import org.elasticsearch.action.search.SearchRequest;
import org.elasticsearch.action.search.SearchResponse;
import org.elasticsearch.client.RequestOptions;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestClientBuilder;
import org.elasticsearch.client.RestHighLevelClient;
import org.elasticsearch.search.suggest.Suggest;
import org.elasticsearch.search.suggest.SuggestBuilder;
import org.elasticsearch.search.suggest.SuggestBuilders;
import org.elasticsearch.search.suggest.completion.CompletionSuggestion;
import org.junit.jupiter.api.AfterEach;
import org.junit.jupiter.api.BeforeEach;
import org.junit.jupiter.api.Test;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;import java.io.IOException;
import java.util.List;@SpringBootTest
class HotelSuggestionTest {private RestHighLevelClient restHighLevelClient;@Autowiredprivate IHotelService hotelService;@Testvoid testSuggestion() throws IOException {// 1.准备SearchRequestSearchRequest searchRequest = new SearchRequest("hotel");// 2.准备DSLsearchRequest.source().suggest(new SuggestBuilder().addSuggestion("suggestions",SuggestBuilders.completionSuggestion("suggestion").prefix("h").skipDuplicates(true).size(10)));// 3.发送请求SearchResponse searchResponse = restHighLevelClient.search(searchRequest, RequestOptions.DEFAULT);// 4.解析结果// 4.1.获取suggest对象Suggest suggest = searchResponse.getSuggest();// 4.2.根据名称获取suggestion对象CompletionSuggestion suggestion = suggest.getSuggestion("suggestions");// 4.3.获取optionsList<CompletionSuggestion.Entry.Option> options = suggestion.getOptions();// 4.4.遍历for (CompletionSuggestion.Entry.Option option : options) {System.out.println("option.getText().string() = " + option.getText().string());}}@BeforeEachvoid setUp() {// 用户名和密码String username = "elastic";String password = "tF8RGg2vd0FAzgkK";final BasicCredentialsProvider credentialsProvider = new BasicCredentialsProvider();credentialsProvider.setCredentials(AuthScope.ANY, new UsernamePasswordCredentials(username, password));RestClientBuilder restClientBuilder = RestClient.builder(new HttpHost("127.0.0.1", 9200, "http")).setHttpClientConfigCallback(httpClientBuilder -> httpClientBuilder.setDefaultCredentialsProvider(credentialsProvider));restHighLevelClient = new RestHighLevelClient(restClientBuilder);}@AfterEachvoid tearDown() throws IOException {restHighLevelClient.close();}}
7. 综合案例:实现搜索框自动补全
测试工程已实现搜索框自动补全,启动测试工程后,在浏览器中查看搜索框的自动补全效果
http://localhost:8089/
前端源代码的 Gitee 地址:auto-complete