ElasticSearch之通过search after和scroll解决深度分页问题

写在前面

通过from,size来进行分页查询时,如下:
在这里插入图片描述
当from比较大时会有深度分页问题,问题产生的核心是coordinate node需要从每个分片中获取from+size条数据,当from比较大,整体需要获取的数据量也会比较大,如下图:
在这里插入图片描述
所以es深度分页问题的核心就在于每个分片多需要返回from+size条数据,所以,如果能解决这个问题,也就解决深度分页的问题了。

但es针对from size方式的深度分页问题也是提供了一定的应对措施的,比如通过参数index.max_result_window,默认是10000条,如下超过1万条时将会报错:

  • 1
    在这里插入图片描述
  • 2
    在这里插入图片描述

并且,为了更好的解决深度分页问题,es同时提供了search after和scroll两种方式来解决深度分页,其中前者是通过定位到某个数据的方式来解决,后者是通过创建快照的方式来解决。

分别看下。

1:search after

search after是实时分页,并且要求sort的字段必须是唯一的(多个sort字段组合在一起唯一也可),所以一般我们在使用search after时,会在不影响业务要求的排序基础上将_id也加上去,如下:

  • 格式
{"size": "size值","query": {具体的chaxun},"search_after": [上一个sort 的结果]",”sort“: [sort数组]
}
  • 实例
    在这里插入图片描述

为了测试,我们先来准备测试数据:

DELETE usersPOST users/_doc
{"name":"user1","age":10}POST users/_doc
{"name":"user2","age":11}POST users/_doc
{"name":"user3","age":12}POST users/_doc
{"name":"user4","age":13}// "count" : 4,
GET users/_count
  • 查询第一页的数据

此时需要使用from size来查询

POST users/_search
{"from": 0,"size": 1,"query": {"match_all": {}},"sort": [{"age": "desc"},{"_id": "asc"}]
}

取结果中的sort值作为查询下一页数据的入参:
在这里插入图片描述

  • 查询下一页
POST users/_search
{"size": 1,"query": {"match_all": {}},"search_after":  [13,"z-cxE44BbPrZSKsI0wh6"],"sort": [{"age": "desc"},{"_id": "asc"}]
}

如此重复直到没有下一页:
在这里插入图片描述

search after通过每次从每个分片获取from+size的数据量变为size来解决了深度分页的问题,如下图:
在这里插入图片描述

2:scroll api

scroll api通过快照的方式来解决深度分页问题,即第一次查询时会生成一个全量数据的快照,因此快照生成后的数据将无法被查询,这种方式一般用于数据导出等场景中。
在这里插入图片描述

看例子。

  • 准备数据
DELETE usersPOST users/_doc
{"name":"user1","age":10}POST users/_doc
{"name":"user2","age":11}POST users/_doc
{"name":"user3","age":12}POST users/_doc
{"name":"user4","age":13}
  • 创建scroll快照,五分钟失效
POST users/_search?scroll=5m
{"size": 1,"query": {"match_all": {}}
}

在这里插入图片描述

  • 查询下一页
POST /_search/scroll
{"scroll": "1m","scroll_id": "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAhesWUk9pVDk4SUdSUXEyRGlhc21kVDJUZw=="
}

一直查询到没有下一页:
在这里插入图片描述
再来插入一条:

POST users/_doc
{"name":"user5","age":14}

因为读的是快照,所以是查不到的。

写在后面

参考文章列表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/271214.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿珊解析Vuex:实现状态管理的利器

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

[c++] c++ 中的顺序(构造,析构,初始化列表,继承)

对象构造的时候,对象成员变量的初始化顺序是什么样的 ? 派生类构造的时候,先构造基类还是先构造派生类 ? 构造函数中的初始化列表,初始化的顺序是列表的顺序吗 ? 析构的时候,析构的顺序是什么…

静态时序分析:典型与非典型时序路径的约束详解(一)

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 时序路径是静态时序分析中的一个重要概念,了解时序路径能帮助设计者更好地编写SDC脚本,本文旨在详细介绍时序路径相关内容。 首先给出时序…

【重制版】WSDM 2024 2023时空时序论文总结

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀 欢迎大家关注时空探索之旅 WSDM 2024于2024年3月4日-3月8日在墨西哥梅里达(Mrida, Mxico)正在举行。目前官网已经放出了所有被录用论文的表单(链接…

实现消息队列(Kafka、ActiveMQ、RabbitMQ和RocketMQ)高可用

概述 单机没有高可用可言,高可用都对集群来说的 要保证消息队列系统(如Kafka、ActiveMQ、RabbitMQ和RocketMQ)的高可用性,可以采取以下一些通用的措施: 集群部署:将消息队列系统部署为集群,包…

uniapp和vue项目配置多语言,实现前端切换语言

在uniapp中配置多语言功能,实现前端切换语言,可以按照以下步骤进行: 1. 创建语言包 首先,创建一个名为 lang 的目录,并在该目录下为每种支持的语言创建对应的JSON或JS文件。例如: lang/en.js&#xff08…

【Linux】深入理解cd命令

🍎个人博客:个人主页 🏆个人专栏:Linux ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 基本用法: 相对路径和绝对路径: 特殊符号和快捷方式: 符号链接: 自动补全&…

重装系统后正版office如何安装

前言 重装系统后,正版office如何安装 登录官网 https://www.microsoft.com 下载office https://account.microsoft.com/services

培训机构新助力:教务管理工教务管理新境界:完善流程,高效运营触手可及具

随着科技的不断进步,教育领域正迎来一场革命性的变革。乔拓云教育系统,作为这场变革的引领者,正以其卓越的功能和高效的解决方案,为培训机构带来前所未有的教务管理新篇章。 一、高效排课,让教务管理更轻松 乔拓云教育…

蓝桥杯(3.7)

P1102 A-B 数对 import java.util.Scanner; public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);int n sc.nextInt();int c sc.nextInt();int[] res new int[n1];for(int i1;i<n;i)res[i] sc.nextInt();int sum 0;for(i…

Redis基础入门

目录 目录 一、认识Redis Redis特征&#xff1a; 二、Redis数据结构介绍 三、Redis的命令 1.Redis通用命令 2.关于String类型的命令 3.关于Hash类型的命令 4.关于List类型的常用命令 5.关于Set类型的常用命令 6.关于SortSet类型的常用命令 四、Redis中的层级关系的key 五…

【RabbitMQ】WorkQueue

&#x1f4dd;个人主页&#xff1a;五敷有你 &#x1f525;系列专栏&#xff1a;MQ ⛺️稳中求进&#xff0c;晒太阳 Work Queues Work queues任务模型&#xff0c;简单来说就是让多个消费者绑定到一个队列&#xff0c;共同消费队列中的消息 当消息处理比较耗时的时候&…

【开课】云贝教育2024年3月9日-PostgreSQL中级工程师PGCE认证培训开课啦!

课程介绍 根据学员建议和市场需求,规划和设计了《PostgreSQL CE 认证课程》,本课程以内部原理、实践实战为主&#xff0c;理论与实践相结合。课程包含PG 简介、安装使用、服务管理、体系结构等基础知识。同时结合一线实战案例&#xff0c; 面向 PG 数据库的日常维护管理、服务和…

力扣114. 二叉树展开为链表

Problem: 114. 二叉树展开为链表 文章目录 题目描述思路复杂度Code 题目描述 思路 思路1&#xff1a;借助额外空间 借助一个队列将二叉树先序遍历的节点存入&#xff0c;再取出连接成一个链表 思路2&#xff1a;后序遍历处理 后序遍历&#xff0c;先将左子树拉伸为一个链表&am…

支小蜜校园防欺凌系统如何有效应对学生霸凌?

学生霸凌不仅直接伤害到被霸凌者的身心健康&#xff0c;也对整个校园的和谐氛围构成了威胁。为了应对这一问题&#xff0c;校园防欺凌系统应运而生&#xff0c;成为维护校园安全、保护学生权益的重要工具。那么当校园防欺凌系统面对学生霸凌时&#xff0c;该如何有效应对呢&…

3. springboot中集成部署vue3

1. vue3构建 构建命令 npm run build&#xff0c; 构建的结果在disc目录&#xff1a; 2. springboot集成 2.1 拷贝vue3构建结果到springboot resources/static目录 2.2 springboot pom依赖 添加thymeleaf依赖 <dependency><groupId>org.springframework.boot</…

onnx模型优化利器onnxoptimizer、onnxsim

ONNX性能优化和调试技巧 - 知乎ONNX模型是一种跨平台、跨框架的模型表示格式,允许用户在不同的深度学习框架之间共享模型和数据,从而加速模型开发和部署。然而,在实际应用中,我们通常需要对ONNX模型进行性能优化和调试,以确保其在不同硬件和…https://zhuanlan.zhihu.com/…

golang中go build 后读取配置文件

golang打包后读取配置文件 在用go写代码的时候&#xff0c;为了好用经常使用go build 打包&#xff0c;如果我们用到了配置文件&#xff0c;就总是导致不能找到文件所在位置了出现bug&#xff0c;所以以下代码就解决了这个问题。 核心代码&#xff1a; file, err : exec.Look…

蓝桥杯刷题(一)

一、 import os import sys def dps(s):dp [0] * len(s)dp[0] ord(s[0]) - 96if len(s) 1:return dp[-1]dp[1] max(ord(s[0]) - 96, ord(s[1]) - 96)for i in range(2, len(s)):dp[i] max(dp[i - 1], dp[i - 2] (ord(s[i])) - 96)return dp[-1] s input() print(dps(s))…

Java定时调度

在Java应用程序中&#xff0c;定时调度是一项重要的任务。它允许你安排代码执行的时间&#xff0c;以便在将来的某个时刻自动执行任务。Java提供了多种方式来实现定时调度&#xff0c;其中最常用的是Java的Timer和ScheduledExecutorService。 在本教程中&#xff0c;我们将学习…