基于Elasticsearch的多文档检索 比如 商品(goods)、案例(cases)

概述

Elasticsearch多文档聚合检索

详细

记得把这几点描述好咯:需求(要做什么) + 代码实现过程 + 项目文件结构截图 + 演示效果

应用场景

我们需要在五种不同的文档中检索数据。
比如 商品(goods)、案例(cases)、日记(diaries)、帖子(posts)、商家(shops)。
我们现在需要用关键字做全文检索,但是命中结果需要包含每一类数据。
goods->如果关键字命中,最多返回4条,不命中返回0条。
cases、diaries、posts、shops 4类数据都遵循上诉规则,就是每一类最多返回4条,没有关键词命中,则不返回。

1.分开检索每一类索引文档

为了赶工期,由于业务场景中,有单类索引检索的需求,所以一开始,我们重用了单索引的code,直接在接口层聚合5类数据。但是这样我们搜索服务与应用服务的开销无疑是增大了很多。我们来看看接口调用:
 


看到这儿,是不是有些难受。这么多调用,这么多并发,只想说一句,难受啊。是的,我心里也很难受,所以我们必须做出改变

2.一起来优化优化吧

不应该访问这么多服务,我们知道ES是可以一次性检索多类文档。我们当然希望,一次让ES返回我们所有的检索数据,那当然是最好的。我们来看看简化后的流程:
 


哟西,好像简洁了很多

3.把任务一次性交给Elasticsearch

优化之后的请求,少了服务的多次调用,少了并发的开销,我们把所有大部分任务一次性交给了SE(search engine),通过SE的计算,我们只需要一次调用服务,就可以拿到想要的所有数据,进行数据的分类封装,就可以返回给客户端使用了。那么这个过程又发生了哪些变化呢?在coding过程中,用到了哪些知识呢?下面我们一起来code share吧。

4.通过聚合函数平均返回值

要点:
terms aggregation — Bucket aggregation
topHints aggregation — Metrics aggregation

terms aggregation是Elasticsearch的Bucket aggregation,就是聚合桶;topHints aggregation 是Elasticsearch Metrics aggregation ,指标聚合。
terms aggregation — 提供根据某个字段进行装桶,可以认为是根据指定key进行分组。桶聚合的特点,只能返回桶的数据。比如:根据”_index”分组,那我们聚合桶就只有_index的值,而不能拿到命中的数据。
topHints aggregation — 返回排序靠前的数据,值得注意的是,支持返回最大的size 是 200。指标聚合,会根据桶内的数据进行指标计算。topHint 可以让我们拿到命中的数据。
说明:在这里介绍下metrics aggregation 、Bucket Aggregation的区别。metrics Aggregation 是对聚合数据的计算。Bucket Aggregation 用于对数据进行分组。往往我们在业务实现中,DSL中是需要有多种类型的aggregation的。
根据topHints aggregation 的特点,我们利用这样的方法检索,每类数据返回结果是不能超过200条的

5.code share

核心代码:
 


**aggregationBuilder 语义说明:

1.创建名称为 “index-group”的terms bucket
2.然后在每个terms bucket中创建名称为”details”的 topHints aggregation的子聚合。
3.子聚合中根据”_score”(命中分数),进行排序。

项目结构补充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/131001.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1014. 最佳观光组合

1014. 最佳观光组合 原题链接:完成情况:解题思路:参考代码: 原题链接: 1014. 最佳观光组合 https://editor.csdn.net/md/?not_checkout1&spm1000.2115.3001.5352 完成情况: 解题思路: …

【DevOps核心理念基础】3. 敏捷开发最佳实践

一、敏捷开发最佳实践 1.1 项目管理 1.2 需求管理 1.3 技术架构 1.4 技术开发 1.5 测试 二、敏捷开发最佳实践 2.1 敏捷开发的执行细节 三、全面的DevOps工具链 四、版本控制和协作开发工具 4.1 集中式版本控制工具 4.2 分布式版本控制工具 一、敏捷开发最佳实践 …

房地产小程序 | 小程序赋能,房地产业务数字化升级

随着科技的不断发展,房地产行业正逐渐向数字化转型。在这个过程中,房地产小程序成为了一种重要的工具,可以帮助房地产企业提供更好的购房体验、增加销售额,并实现管理的便捷化。 优点 便捷购房体验:房地产小程序为用户…

使用mybatis批量插入数据

最近在做项目的时候&#xff0c;有些明细数据&#xff0c;一条一条的插入太费资源和时间&#xff0c;所以得需要批量插入&#xff0c;今晚闲来无事写个小demo。 新建工程 <dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis…

如何实现微服务

一、问题拆解 1.1、客户端如何访问这些服务 原来的Monolithic方式开发&#xff0c;所有的服务都是本地的&#xff0c;UI可以直接调用&#xff1b;现在按功能拆分成独立的服务&#xff0c;跑在独立的虚拟机上的Java进程了。客户端UI如何访问他的&#xff1f; 后台有N个服务&a…

计算机毕业设计 高校课程评价系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

redis安装部署

文章目录 准备工作下载安装包修改配置文件命令常用配置信息 准备工作 检查linux系统是否安装了相关的编译工具 要检查 Linux 系统上是否已经安装了编译工具&#xff0c;可以执行以下命令&#xff1a; 检查 GCC 是否安装&#xff1a;在终端窗口中运行 gcc --version 命令&#…

CTFhub_SSRF靶场教程

CTFhub SSRF 题目 1. Bypass 1.1 URL Bypass 请求的URL中必须包含http://notfound.ctfhub.com&#xff0c;来尝试利用URL的一些特殊地方绕过这个限制吧 1.利用?绕过限制urlhttps://www.baidu.com?www.xxxx.me 2.利用绕过限制urlhttps://www.baidu.comwww.xxxx.me 3.利用斜…

ARM Linux DIY(八)USB 调试

前言 V3s 带有一个 USB 接口&#xff0c;将其设置为 HOST 或 OTG 模式&#xff0c;这样可以用来接入键盘、鼠标等 USB 外设。 USB 简介 USB 有两种设备&#xff1a;HOST 和 USB 功能设备。 在 USB2.0 中又引入了一个新的概念 OTG&#xff0c;即设备角色可以动态切换。 切换方…

技术架构图是什么?和业务架构图的区别是什么?

技术架构图是什么&#xff1f; ​技术架构图是一种图形化工具&#xff0c;用于呈现软件、系统或应用程序的技术层面设计和结构。它展示了系统的各种技术组件、模块、服务以及它们之间的关系和交互方式。技术架构图关注系统内部的技术实现细节&#xff0c;以及各个技术组件之…

python+selenium基于po模式的web自动化测试框架

一、什么是Selenium&#xff1f; Selenium是一个基于浏览器的自动化测试工具&#xff0c;它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分&#xff1a;Selenium IDE、Selenium WebDriver 和Selenium Grid。 Selenium IDE&#xff1a;Firef…

vue3-admin-element安装

1、直接点此链接进入下载 https://gitee.com/hu-snail/vue3-admin-element-template 2、下载完毕之后是个压缩包&#xff0c;解压 然后直接可以运行到vscode或HBuilder中 3、下载依赖&#xff1a;我使用的npm下载 npm i npm i serve启动 运行&#xff1a;npm run serve …

使用CoreOS来部署一个Kubernetes集群,包括必要的步骤和关键概念

文章目录 什么是CoreOS&#xff1f;准备CoreOS节点安装Kubernetes初始化Kubernetes控制平面加入其他节点设置kubectl配置安装网络插件验证集群部署应用程序结论 &#x1f388;个人主页&#xff1a;程序员 小侯 &#x1f390;CSDN新晋作者 &#x1f389;欢迎 &#x1f44d;点赞✍…

【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

文章目录 一、爬取目标二、展示爬取结果三、爬虫代码四、同步视频五、附完整源码 您好&#xff0c;我是 马哥python说&#xff0c;一枚10年程序猿。 一、爬取目标 之前&#xff0c;我分享过一些B站的爬虫&#xff1a; 【Python爬虫案例】用Python爬取李子柒B站视频数据 【Pyt…

青大数据机构【2013】

关键字&#xff1a; 邻接表空间复杂度、求无向图连通分量&#xff08;BFS、DFS&#xff09;、B树根节点最小关键字、平均查找长度最小的排序、二叉树排序叶子结点次序不变、不同次序建立二叉排序树及中序遍历、直接插入排序特点、强连通分量、邻接矩阵邻接表 一、单选&#x…

mac使用squidMan设置代理服务器

1&#xff0c;下载squidMan http://squidman.net/squidman/ 2, 配置SquidMan->Preference 3, mac命令窗口配置 export http_proxy export https_porxy 4&#xff0c;客户端配置&#xff08;centos虚拟机&#xff09; export http_proxyhttp://服务器ip:8080 export https…

【MySQL】聊聊数据库高可用

对于任何一个互联网公司来说&#xff0c;必定涉及到存储系统&#xff0c;而一般主流的使用MySQL进行存储数据&#xff0c;但是如果只是部署一台数据库&#xff0c;数据丢失的话&#xff0c;其实没有办法进行有效的恢复&#xff0c;那么就会造成一定的损失。要么就是直接的损失&…

西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案

语境偏置&#xff08;Contextual biasing&#xff09;旨在将语境知识集成到语音识别&#xff08;ASR&#xff09;系统中&#xff0c;以提高在相关领域词汇&#xff08;俗称“热词”&#xff09;上的识别准确率。在许多ASR场景中&#xff0c;待识别语音中可能会包含训练数据中数…

设定excel导出时单元格的格式

一、需求 要求excel导出时&#xff0c;对应列里面的内容格式为日期&#xff0c;数值格式并有精度要求 &#xff0c;如下图&#xff1a; 使用alibaba&#xff0c;easyexcel&#xff0c;默认的导出数据格式为文本&#xff0c;excel显示为常规&#xff0c;使用数据规范注解Number…

Android 官方屏幕适配之ScreenMatch

背景&#xff1a; Android 项目的一个app需要适配手机平板&#xff0c;为了一套UI和可以适配2个不同屏幕&#xff0c;记录一个适配的技巧&#xff1a; 前提&#xff0c;使用这个框架&#xff1a;GitHub - wildma/ScreenAdaptation: :fire:一种非常好用的 Android 屏幕适配——…