Elasticsearch - 闲聊ElasticSearch中的分页

文章目录

  • 概述
  • 分页方案
    • from-size
      • 内部执行过程
        • 【Query】阶段
        • 【fetch】阶段
        • 潜在问题
        • 注意事项
    • 深度分页
      • Scroll (Scroll遍历数据)
      • Scroll Scan
      • Sliced Scroll
      • Search After
        • 基于pit机制的search after
  • 小结

在这里插入图片描述

概述

ElasticSearch是一款强大的搜索引擎,它能够帮助我们快速地搜索海量数据。然而,在处理大量数据时,ElasticSearch的性能可能会受到影响。其中一个常见的问题是深度分页,也就是当我们需要获取大量数据时,ElasticSearch需要处理的数据量太大,导致性能下降。

Elasticsearch 深度分页问题的本质是在进行分页查询时,由于每个分片都需要生成大量的数据,并将这些数据发送到协调节点进行汇总,因此随着查询深度的增加,每个分片需要生成的数据条数也越来越大,从而导致查询效率降低。

先说结论: 在 Elasticsearch 中,也应该尽量避免使用深度分页 。就如同在使用关系型数据库中,也是不能很好地解决深度分页的问题,因此要注意甚至明确禁止使用深度分页

今天闲聊一下 Elasticsearch 中分页的相关知识点

在这里插入图片描述


分页方案

https://www.elastic.co/guide/en/elasticsearch/reference/current/paginate-search-results.html

在这里插入图片描述

我们也看看BBOSS的深度分页解决方案
https://esdoc.bbossgroups.com/#/README
在这里插入图片描述


from-size

在这里插入图片描述

在ES中,分页查询默认返回最顶端的10条匹配hits。

如果需要分页,需要使用from和size参数。

  • from参数定义了需要跳过的hits数,默认为0;
  • size参数定义了需要返回的hits数目的最大值。
GET /_search
{"from": 5,"size": 20,"query": {"match": {"user.id": "kimchy"}}
}

上面的查询表示从搜索结果中取第5条开始的20条数据。

内部执行过程

在ES中,搜索是一个典型的两阶段过程,query 和 fetch 阶段。

简单来说

  • query 阶段确定要取哪些doc
  • fetch 阶段取出具体的 doc

【Query】阶段

在这里插入图片描述
如图所示,描述了一次搜索请求的 query 阶段:·

  1. Client 发送一次搜索请求,node1 接收到请求,然后,node1 创建一个大小为from + size优先级队列用来存结果,我们称 node1 为coordinating node 协调节点。
  2. coordinating node将请求广播到涉及到的 shards,每个 shard 在内部执行搜索请求,然后,将结果存到内部的大小同样为from + size 的优先级队列里,可以把优先级队列理解为一个包含top N结果的列表。
  3. 每个 shard 把暂存在自身优先级队列里的数据返回给 coordinating nodecoordinating node 拿到各个 shards 返回的结果后对结果进行一次合并,产生一个全局的优先级队列,存到自身的优先级队列里。

比如上面的例子, 6个shard , 那么 coordinating node 就会拿到(from + size) * 6条数据,然后合并并排序后选择前面的from + size条数据存到优先级队列,以便 fetch 阶段使用。

另外,各个分片返回给 coordinating node 的数据用于选出前from + size条数据,所以,只需要返回唯一标记 doc 的_id以及用于排序的_score即可,这样也可以保证返回的数据量足够小

coordinating node 计算好自己的优先级队列后,query 阶段结束,进入 fetch 阶段。


【fetch】阶段

query 阶段知道了要取哪些数据,但是并没有取具体的数据, fetch 阶段要做的就是去根据返回的doc的_id取数据。

在这里插入图片描述

  1. coordinating node 发送 GET 请求到相关shards。
  2. shard 根据 doc 的_id取到数据详情,然后返回给 coordinating node
  3. coordinating node 返回数据给 Client。

coordinating node 的优先级队列里有from + size 个_doc _id,但是,在 fetch 阶段,并不需要取回所有数据,在上面的例子中,前100条数据是不需要取的,只需要取优先级队列里的第101到110条数据即可。

需要取的数据可能在不同分片,也可能在同一分片,coordinating node 使用 multi-get 来避免多次去同一分片取数据,从而提高性能。


潜在问题

假设在一个有 5 个主分片的索引中搜索。当请求结果的第一页(结果从 1 到 10 ),每一个分片产生前 10 的结果,并且返回给 协调节点 ,协调节点对 50 个结果排序得到全部结果的前 10 个

当我们请求第 1000 页—结果从 10001 到 10010 。所有都以相同的方式工作除了每个分片不得不产生前10010个结果以外。然后协调节点对全部 50050 个结果排序最后丢弃掉这些结果中的 50040 个结果


注意事项

  1. size的大小不能超过index.max_result_window这个参数的设置,默认为10000。

    如果搜索size大于10000,需要设置index.max_result_window参数

    PUT _settings
    {"index": {"max_result_window": "10000000"}
    }  
    
  2. _doc将在未来的版本移除

    https://www.elastic.co/cn/blog/moving-from-types-to-typeless-apis-in-elasticsearch-7-0

    https://elasticsearch.cn/article/158

    在这里插入图片描述


深度分页

深度分页问题大致可以分为两类:

  1. 随机跳转页面----> 随机深度分
  2. 只能一页一页往下查询 -----> 滚动深度分页

Scroll (Scroll遍历数据)

在这里插入图片描述

我们可以把scroll理解为数据库里的cursor, 所以 scroll并不适合用来做实时搜索,而更适合用于后台批处理任务 ,所以它的主要用途是 不是为了实时查询数据,而是为了一次性查询大量甚至是全部的数据。

scroll相当于维护了一份当前索引段的快照信息,这个快照信息是你执行这个scroll查询时的快照。在这个查询后的任何新索引进来的数据,都不会在这个快照中查询到。

但是它相对于from和size,不是查询所有数据然后剔除不要的部分,而是记录一个读取的位置,保证下一次快速继续读取。

scroll可以分为初始化和遍历两部,初始化时将所有符合搜索条件的搜索结果缓存起来( 这里只是缓存的doc_id,而并不是真的缓存了所有的文档数据,取数据是在fetch阶段完成的),可以理解成快照。

在遍历时,从这个快照里取数据,也就是说,在初始化后,对索引插入、删除、更新数据都不会影响遍历结果。

用法如下:

在这里插入图片描述
初始化指明 index 和 type,然后,加上参数 scroll,表示暂存搜索结果的时间,其它就像一个普通的search请求一样。

结果中会返回一个_scroll_id,_scroll_id用来下次取数据用。

这里的scroll_id即 上一次遍历取回的_scroll_id或者是初始化返回的_scroll_id,同样的,需要带 scroll 参数。

重复这一步骤,直到返回的数据为空,即遍历完成。


注意,每次都要传参数 scroll,刷新搜索结果的缓存时间。另外,不需要指定 index 和 type。

设置scroll的时候,需要使搜索结果缓存到下一次遍历完成,同时,也不能太长,毕竟空间有限。

缺点:

  1. scroll_id会占用大量的资源(特别是排序的请求)
  2. 同样的,scroll后接超时时间,频繁的发起scroll请求,会出现一些列问题。
  3. 是生成的历史快照,对于数据的变更不会反映到快照上。

优点:

  1. 适用于非实时处理大量数据的情况,比如要进行数据迁移或者索引变更之类的。

Scroll Scan

ES提供了scroll scan方式进一步提高遍历性能,但是scroll scan不支持排序,因此scroll scan适合不需要排序的场景

不考虑排序的时候,可以结合SearchType.SCAN使用

POST /my_index/my_type/_search?search_type=scan&scroll=1m&size=50
{"query": { "match_all": {}}
}

需要指明参数:

  • search_type:赋值为scan,表示采用 Scroll Scan 的方式遍历,同时告诉 Elasticsearch 搜索结果不需要排序。
  • scroll:同上,传时间。
  • size:与普通的 size 不同,这个 size 表示的是每个 shard 返回的 size 数,最终结果最大为 number_of_shards * size

Scroll Scan与Scroll的区别

  1. Scroll-Scan结果没有排序,按index顺序返回,没有排序,可以提高取数据性能。
  2. 初始化时只返回 _scroll_id,没有具体的hits结果
  3. size控制的是每个分片的返回的数据量,而不是整个请求返回的数据量。

Sliced Scroll

如果数据量很大,用Scroll遍历数据那确实是接受不了,现在Scroll接口可以并发来进行数据遍历了。

每个Scroll请求,可以分成多个Slice请求,可以理解为切片,各Slice独立并行,比用Scroll遍历要快很多倍。
在这里插入图片描述

上边的示例可以单独请求两块数据,最终五块数据合并的结果与直接scroll scan相同。

其中max是分块数,id是第几块。

官方文档中建议max的值不要超过shard的数量,否则可能会导致内存爆炸。

Search After

Search_after是 ES 5 新引入的一种分页查询机制,其原理几乎就是和scroll一样,因此代码也几乎是一样的。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

基于pit机制的search after

https://www.elastic.co/guide/en/elasticsearch/reference/current/paginate-search-results.html#search-after

Elasticsearch官方search after dsl案例:

{"size": 10000,"query": {"match" : {"user.id" : "elkbee"}},"pit": {"id":  "46ToAwMDaWR5BXV1aWQyKwZub2RlXzMAAAAAAAAAACoBYwADaWR4BXV1aWQxAgZub2RlXzEAAAAAAAAAAAEBYQADaWR5BXV1aWQyKgZub2RlXzIAAAAAAAAAAAwBYgACBXV1aWQyAAAFdXVpZDEAAQltYXRjaF9hbGw_gAAAAA==", "keep_alive": "1m"},"sort": [{"@timestamp": {"order": "asc", "format": "strict_date_optional_time_nanos"}}{"_shard_doc": "desc"}],"search_after": [                                "2021-05-20T05:30:04.832Z",4294967298],"track_total_hits": false                        
}

在这里插入图片描述

在搜索请求中指定PIT:

在这里插入图片描述
在这里插入图片描述

es维护一个实时游标,它以上一次查询的最后一条记录为游标,方便对下一页的查询,它是一个无状态的查询,因此每次查询的都是最新的数据。

由于它采用记录作为游标,因此SearchAfter要求doc中至少有一条全局唯一变量(每个文档具有一个唯一值的字段应该用作排序规范)


优缺点

  1. 无状态查询,可以防止在查询过程中,数据的变更无法及时反映到查询中。
  2. 不需要维护scroll_id,不需要维护快照,因此可以避免消耗大量的资源。

缺点:

  • 由于无状态查询,因此在查询期间的变更可能会导致跨页面的不一值。
  • 排序顺序可能会在执行期间发生变化,具体取决于索引的更新和删除。
  • 至少需要制定一个唯一的不重复字段来排序。
  • 它不适用于大幅度跳页查询,或者全量导出,对第N页的跳转查询相当于对es不断重复的执行N次search after,而全量导出则是在短时间内执行大量的重复查询。
  • SEARCH_AFTER不是自由跳转到任意页面的解决方案,而是并行滚动多个查询的解决方案。

小结

分页方式性能推荐场景优点缺点1-1049000-49001099000-99010
from + size数据量比较小,能容忍深度分页问题实现简单深度分页问题8ms30ms116ms
scroll非实时性的海量数据的查询无深度分页问题1。 越滚越慢,2。 无法反应数据的实时性(快照版本)维护成本高,需要维护一个 scroll_id7ms66ms36ms
search_after海量数据的分页性能最好,PIT模式能够反映数据的实时变更实现复杂,需要有一个全局唯一的字段连续分页的实现会比较复杂,因为每一次查询都需要上次查询的结果,它不适用于大幅度跳页查询5ms8ms7ms
  • Scroll 和 Search_After 都是用于解决深分页问题的游标方式,但它们并不是深分页问题的终极解决方案,因为深分页问题必须避免。

  • Scroll 需要维护 scroll_id 和历史快照,并且必须保证 scroll_id 的存活时间,这对服务器是一个巨大的负荷。此外,Scroll 默认会拉取所有符合条件的数据,并保存在协调节点,每次 scroll 只返回 size 个文档和一个上下文状态,用于告知下一次读取的起点。因此,官方不推荐使用 Scroll 来进行实时的分页查询,而是适合于大批量的拉取数据。

  • Search_After 是一种业务折中方案,不允许指定跳转到页面,而只提供下一页的功能。如果允许用户大幅度跳转页面,会导致短时间内频繁的搜索动作,效率低下,增加服务器负荷。此外,在查询过程中,索引的增删改会导致查询数据不一致或者排序变化,造成结果不准确。

  • 因此,深分页问题必须避免,如果需要进行分页查询,可以使用其他更为适合的查询方式,比如限制条件和排序等。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/90293.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring kafka源码分析——消息是如何消费的

文章目录 概要端点注册创建监听容器启动监听容器消息拉取与消费小结 概要 本文主要从Spring Kafka的源码来分析,消费端消费流程;从spring容器启动到消息被拉取下来,再到执行客户端自定义的消费逻辑,大致概括为以下4个部分&#x…

flutter-第三方组件

卡片折叠 stacked_card_carousel 扫一扫组件 qr_code_scanner 权限处理组件 permission_handler 生成二维码组件 pretty_qr_code 角标组件 badges 动画组件 animations app更新 app_installer 带缓存的图片组件 cached_network_image 密码输入框 collection 图片保存 image_g…

数据分析两件套ClickHouse+Metabase(一)

ClickHouse篇 安装ClickHouse ClickHouse有中文文档, 安装简单 -> 文档 官方提供了四种包的安装方式, deb/rpm/tgz/docker, 自行选择适合自己操作系统的安装方式 这里我们选deb的方式, 其他方式看文档 sudo apt-get install -y apt-transport-https ca-certificates dirm…

SpringBoot复习:(44)MyBatisAutoConfiguration

可以看到MyBatisAutoConfiguration引入了MyBatisProperties这个属性: MyBatisAutoConfiguration中配置了一个SqlSessionFactoryBean,代码如下: 可以配置mybatis-config.xml,需要配置文件里指定: mybatis.config-locationclasspath:/mybat…

2023年京东宠物食品行业数据分析(京东大数据)

宠物食品市场需求主要来自于养宠规模,近年来由于我国宠物数量及养宠人群的规模均在不断扩大,宠物相关产业和市场规模也在蓬勃发展,宠物食品市场也同样保持正向增长。 根据鲸参谋电商数据分析平台的相关数据显示,2023年1月-7月&am…

python单元测试框架(测试固件、批量执行)

python测试框架 在Python语言中应用最广泛的单元测试框架是unittest和pytest,unittest属于标准库,只要安装了Python解释器后就可以直接导入使用了,pytest是第三方的库,需要单独的安装。 1.白盒测试原理 在软件架构的层面来说,测试最核心的步…

红日ATT&CK VulnStack靶场(三)

网络拓扑 web阶段 1.扫描DMZ机器端口 2.进行ssh和3306爆破无果后访问web服务 3.已知目标是Joomla,扫描目录 4.有用的目录分别为1.php 5.configuration.php~中泄露了数据库密码 6.administrator为后台登录地址 7.直接连接mysql 8.找到管理员表,密码加密了…

“多测合一”生产软件-不动产测量(不动产权籍调查测绘软件RESS),房地一体化测量由请湖南来示范

湖南“多测合一”生产软件-不动产测量软件,提取码:RESShttps://pan.baidu.com/s/1OqakLJICIP6buNiZ6j9Npw?pwdRESS 2020年7 月,国务院办公厅印发《 国务院办公厅关于进一步优化营商环境 更好服务市场主体的实施意见》 (国办发〔 …

【网络】高级IO

目录 一、五种IO模型 1、阻塞IO 2、非阻塞IO 3、信号驱动 4、IO多路转接 5、异步IO 6、总结 二、高级IO重要概念 1、同步通信与异步通信 2、阻塞 vs 非阻塞 三、非阻塞IO 1、fcntl 2、实现函数SetNoBlock 四、IO多路转接select 1、select 1.1、参数解释 1.2、…

Unity实现异步加载场景

一:创建UGUI 首先我们在LoginCanvas登入面板下面创建一个Panel,取名为LoadScreen,再在loadScreen下面创建一个Image组件,放置背景图片,然后我们再在lpadScreen下面继续创建一个Slider,这个是用来加载进度条的,我们改名为LoadSlid…

简单入门seleniumUI自动化测试

目录 一、selenium的介绍 二、selenium的原理 三、selenium的八种元素定位的方法 1、ID定位: 2 、name定位: 3、class定位: 4、tag定位: 5、link_text定位: 6、partial_link_text定位: 7、css定位…

航顺HK32F030M怎么样 航顺HK32F030M应用领域介绍

航顺HK32F030M是一款基于ARM Cortex-M0内核的32位微控制器,具有高性能、低功耗、经济适用等特点。以下是颖特新关于航顺HK32F030M的详细介绍: 一、性能表现 航顺HK32F030M采用ARM Cortex-M0内核,主频最高可达64MHz,具有出色的计算…

反编译微信小程序,可导出uniapp或taro项目

微信小程序反编译(全网通用) 微信小程序反编译 反编译主要分为四个阶段 操作流程 1. node.js安装 2. node安装模块 3. 开始反编译 4. 导入到微信开发者工具既可运行 微信小程序反编译 当碰到不会写的小程序功能时,正好看到隔壁小程序有类似…

FPGA应用学习笔记--时钟域的控制 亚稳态的解决

时钟域就是同一个时钟的区域,体现在laways语句边缘触发语句中,设计规模增大就会导致时钟不同步,有时差,就要设计多时钟域。 会经过与门的延时产生的新时钟域,这种其实不推荐使用,但在ascl里面很常见 在处理…

2023国赛数学建模C题思路分析

文章目录 0 赛题思路1 竞赛信息2 竞赛时间3 建模常见问题类型3.1 分类问题3.2 优化问题3.3 预测问题3.4 评价问题 4 建模资料 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 竞赛信息 全国大学生数学建模…

SpringCloud实用篇5——elasticsearch基础

目录 1.初识elasticsearch1.1 了解ES1.1.1 elasticsearch的作用1.1.2 ELK技术栈1.1.3 elasticsearch和lucene1.1.4 总结 1.2.倒排索引1.2.1.正向索引1.2.2.倒排索引1.2.3.正向和倒排 1.3 es的一些概念1.3.1 文档和字段1.3.2 索引和映射1.3.3 mysql与elasticsearch 1.4 部署单点…

单模光纤模场强度分布以及高斯近似的MATLAB仿真

已知纤芯半径5um,数值孔径NA 0.1,波长 用波长和数值孔径计算归一化常数V 之前我们在单模光纤特征方程及其MATLAB数值求解中,用线性关系拟合过V和W,这里直接用拟合结果 U用V和W计算 clc clear close alla 5e-6;%纤芯半径 NA …

Stable Diffusion + AnimateDiff运用

1.安装AnimateDiff,重启webui 2.下载对应的模型,最好到c站下载,google colab的资源有可能会出现下载问题 https://civitai.com/models/108836 3.下载完成后,你可以随便抽卡了。 抽卡完成后固定seed,然后打开这个插件&…

基于深度信念网络的西储大学轴承故障分类识别,基于EMD+DBN的西储大学轴承故障识别,LCD+DBN,LMD+DBN

目录 背影 DBN神经网络的原理 DBN神经网络的定义 受限玻尔兹曼机(RBM) (EMD,LCD,LMD)+DBN的深度信念网络的西储大学轴承故障分类识别 基本结构 主要参数 数据 MATALB代码 结果图 展望 背影 DBN是一种深度学习神经网络,拥有提取特征,非监督学习的能力,是一种非常好的分类…

C数据结构与算法——常见排序算法时间复杂度比较 应用

实验任务 (1) 掌握常见比较排序算法的实现; (2) 掌握常用比较排序算法的性能及其适用场合。 实验内容 (1) 平均时间复杂度O(n2)和O(nlog2n)的算法至少各选两种实现; (2) 待排序的无重复关键字存放在一维整型数组中,数量为60000个&#xff…