ElasticSearch 与 OpenSearch:拉开性能差距

Elasticsearch 与 OpenSearch:扩大性能差距

对于任何依赖快速、准确搜索数据的组织来说,强大、快速且高效的搜索引擎是至关重要的元素。对于开发人员和架构师来说,选择正确的搜索平台可以极大地影响您的组织提供快速且相关结果的能力。在我们全面的性能测试中,Elasticsearch® 成为明智的选择。 Elasticsearch 比 OpenSearch 快 40%--140%,同时使用更少的计算资源。 image1

在本文中,我们将在六个主要领域对 Elasticsearch 8.7 和 OpenSearch 2.7(测试时两者的最新版本)进行性能比较:文本查询、排序、日期直方图、范围和术语,包括资源利用率。我们的目标是提供公平、实用的技术见解,帮助您做出明智的决策,无论您是优化现有系统还是设计新系统。此比较还旨在清楚地突出 Elasticsearch 和 OpenSearch 之间的性能差异,表明两者完全不同。

我们将首先回顾性能比较的结果,然后是我们的测试方法和测试环境。

1. 结果

使用 t-test 检验对性能比较结果(重点关注请求的 p90(第 90 个百分位数))进行交叉验证,以确保两种解决方案之间的延迟测量存在统计差异。针对每种查询类型计算相对变化(以百分比表示)。我们还使用箱线图显示 100% 请求的延迟分布,箱线图显示最小值、最大值、中值、平均值和异常值。实际的方框显示了下四分位数和上四分位数,其中分别有 25% 和 75% 的观测值落在其中。通过这种方式,我们可以了解这些值的实际分布情况。

image2
image2

1.1 文本查询 --- 速度提高 76%

"显示包含 jane@doe.com 的所有数据。"

image3
image3

Elasticsearch 表现出了显着的领先优势,执行文本查询的速度比 OpenSearch 快 76% 。

文本查询是全文搜索的基础和关键,而全文搜索是 Elasticsearch 的主要功能。文本字段查询允许用户搜索文本数据中的特定短语、单个单词甚至单词的一部分。用户能够通过文本数据执行复杂的搜索------它增强了整体搜索体验并支持广泛的应用程序和解决方案。

1.2 排序

"先给我看看最贵的产品。"

image4
image4

在对简单文本查询结果进行排序时,Elasticsearch 的性能比 OpenSearch 高出惊人的 140%。此外,Elasticsearch 的时间戳、关键字和数字排序查询的执行时间分别加快了 24%、97% 和 53%。

排序是按特定顺序(例如字母顺序、数字顺序或时间顺序)排列数据的过程。排序对于基于特定条件的搜索结果非常有用,可确保向客户呈现最相关的结果。这是增强用户体验并提高搜索过程整体效率的重要功能。

1.3 日期直方图

"向我显示所有数据的及时排序的条形图。"

image5
image5

对于日期直方图聚合,Elasticsearch 比 OpenSearch 快 81%,展示了其强大能力。处理时间的加速有利于根据时间序列数据生成有序条形图。

日期直方图聚合可用于通过将基于时间的数据划分为间隔或存储桶来聚合和分析数据。此功能使用户能够可视化并更好地了解一段时间内的趋势、模式和异常情况。

1.4 范围

"仅显示 0 至 25 之间的产品价格。"

image6
image6

Elasticsearch 在范围查询方面快了 40%,在范围聚合方面快了 68%。

在测试或关键字字段上搜索范围查询是性能和可扩展性的另一个核心参数。范围查询对于根据给定字段中的特定值范围过滤搜索结果非常有用。此功能允许用户缩小搜索结果范围并快速找到更多相关信息。

更快的构面创建至关重要,因为它涉及根据特定属性将数据分类为组(构面),然后在每个组内执行汇总操作。此过程通过提供电子商务应用程序中经常使用的数据的结构化视图,使分析、过滤和可视化变得更加容易。

1.5 术语

"根据一起购买的产品对数据进行分组。"

image7
image7

Elasticsearch 展示了其优越性,与 OpenSearch 相比,术语查询速度快 108%,复合术语聚合速度快 103%。这些优势使 Elasticsearch 成为涉及数据分组和过滤的任务的更有吸引力的选择。

Elasticsearch 中的"重要术语"聚合会自动排除常见或不感兴趣的术语,例如停用词("and"、"the"、"a")或结果中索引中频繁出现的术语。这是基于对索引数据中的术语频率和分布的统计分析。

1.6 资源利用率

Elasticsearch 不仅在各种与搜索相关的任务中表现优于 OpenSearch,而且还被证明具有更高的资源效率。默认情况下,OpenSearch 对数据流使用 best_speed 编解码器(优先考虑查询速度而不是存储效率),而 Elasticsearch 使用 _best_compression_。使用默认的开箱即用设置,Elasticsearch 使用的磁盘空间减少了 37%,并且当在两者上使用 _best_compression_(用于此基准测试的编解码器)时,Elasticsearch 的空间效率仍然提高了 13%。

1.7 时间序列数据流 (TSDS)

我们更进一步,将数据重新索引到时间序列数据流中,从而进一步压缩数据 - 平均文档大小从 218 kb 下降到 124 kb,减少了 **54.8%**,如下表所示。

image8
image8

点击图片可查看完整电子表格

1.8 第三方验证

我们的性能测试方法和结果已经过 TechTarget 的 Enterprise Strategy Group(一家受人尊敬的第三方供应商)的独立[验证]{.underline}[1]。 Tech Target 企业战略组 ESG 的验证增加了我们的调查结果的可信度和公正性,确保测试方法和后续结果保持最高的准确性和完整性标准。他们的验证重申了我们比较的稳健性和可靠性,使您能够根据我们的基准测试结果做出明智的决定。

2. 测试方法

2.1 我们如何得出这些结果

[本着公平、精确比较]{.underline}[2] Elasticsearch 和 OpenSearch 的精神,我们创建了两个等效的 5 节点集群,每个集群配备 32GB 内存、8 个 CPU 核心、每个节点 300GB 磁盘。对于每个产品,我们提取随机生成的相同 1TB 日志文件,其中包含 22 个字段(更多详细信息如下)。

测试是在单独的 Kubernetes 节点池中完成的,确保每个产品都有专用资源。我们遵循 Elasticsearch 和 OpenSearch 的最佳实践,包括在发起查询之前强制合并索引以及防止缓存请求影响的策略,从而确保测试结果的完整性。

image9
image9

为了保证 Elasticsearch 和 OpenSearch 比较的透明度,我们将完整的基准测试流程作为开源项目提供。可在此处访问的存储库[包括]{.underline}[3]用于配置 Kubernetes 集群的 Terraform 配置以及用于创建 Elasticsearch 和 OpenSearch 集群的 Kubernetes 清单。此外,存储库中还提供了基准测试中使用的查询。

您不仅可以测试自己,还可以使用此存储库进行自己的调查并提高 Elasticsearch 项目的性能。

2.2 我们测试了什么

我们在 Elasticsearch 和 OpenSearch 之间进行的测试是在关键使用领域进行的,包括:

搜索 - 具有典型搜索栏的电子商务用例

可观察性------大量系统遥测数据,例如日志、指标和应用程序跟踪

安全------安全事件实时分析

即将进行的比较将深入分析每个平台在这些领域的表现,包括文本查询、排序、数据直方图、范围和术语。

2.3 数据集和摄取

[使用该开源工具]{.underline}[4]生成了 1TB 数据集,然后将其上传到 GCP 存储桶。 Logstash (®)用于将 GCP 存储桶中的数据集提取到 Elasticsearch 和 OpenSearch 中。存储库中还包含生成类似数据集的说明,以防您想要复制基准测试。

各字段组成的所有日志如下表所示。除@timestamp 之外,所有事件的值都是随机的,@timestamp 是按事件顺序且唯一的。

相关:[我们如何在 Elasticsearch 8.6、8.7 和 8.8 中加速数据摄取]{.underline}[5]

image10
image10

点击图片可查看完整电子表格

3. 基准测试

总共考虑了五个关键领域的 35 种查询类型,总计 387,000 个请求。在 100 个预热查询之后,每个查询类型执行 100 次,每个查询重复该过程 50 次。

[Rally 是 Elastic]{.underline}[6] (®)开发的开源工具,用于 Elasticsearch 和 Elastic Stack 的其他组件的基准测试和性能测试。它允许用户针对 Elasticsearch 集群模拟各种类型的工作负载,例如索引和搜索,并以可重复的方式测量其性能。虽然 Rally 是由 Elastic 开发的,主要是为了对 Elasticsearch 进行基准测试而设计的,但它是一个灵活的工具,可以适应与 OpenSearch 一起使用。

Elastic [每晚运行基准测试]{.underline}[7],以确保 Elasticsearch 中的任何新代码的性能与昨天一样或更好。我们还使用自己的机器学习来识别性能异常或资源利用效率低下。我们以透明和公开的方式提供性能和尺寸测试,以使使用我们产品的每个人受益。值得注意的是,其他人不提供此功能,这可以帮助用户随着时间的推移监控他们感兴趣的变化。

4. 结论:Elasticsearch --- 明显的胜利者

考虑到各种测试的结果,很明显 Elasticsearch 始终优于 OpenSearch。无论是处理简单查询、对数据进行排序、生成直方图、处理术语或范围查询,甚至是资源优化,Elasticsearch 都处于领先地位。

在选择搜索引擎平台时,企业应优先考虑速度、效率和低资源利用率------这些都是 Elasticsearch 所擅长的属性。这使得它成为依赖快速准确搜索结果的组织的一个令人信服的选择。无论您是对搜索结果进行排序的电子商务平台、识别威胁的安全分析师,还是仅仅需要有效观察关键应用程序,Elasticsearch 都在此次比较中成为明显的领导者。

原文链接:https://www.elastic.co/cn/blog/elasticsearch-opensearch-performance-gap

原文作者:George Kobar,[8]Ugo Sangiorgi[9]

发布时间:2023 年 8 月 8 日

参考资料
[1]

[验证]{.underline}: https://www.elastic.co/cn/maximizing-search-application-performance

[2]

[本着公平、精确比较]{.underline}: https://github.com/elastic/elasticsearch-opensearch-benchmark

[3]

[包括]{.underline}: https://github.com/elastic/elasticsearch-opensearch-benchmark

[4]

[使用该开源工具]{.underline}: https://github.com/elastic/elastic-integration-corpus-generator-tool

[5]

[我们如何在 Elasticsearch 8.6、8.7 和 8.8 中加速数据摄取]{.underline}: https://www.elastic.co/cn/blog/data-ingestion-elasticsearch

[6]

[Rally 是 Elastic]{.underline}: https://github.com/elastic/rally

[7]

[每晚运行基准测试]{.underline}: https://elasticsearch-benchmarks.elastic.co/

[8]

George Kobar,: https://www.elastic.co/cn/blog/author/george-kobar

[9]

Ugo Sangiorgi: https://www.elastic.co/cn/blog/author/ugo-sangiorgi

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/320691.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【WebGIS实例】(13)MapboxGL 加载地形高程数据

前言 官网示例:Add 3D terrain to a map | Mapbox GL JS | Mapbox 大佬博客:Mapbox GL基础(七):地形数据的处理与加载 (jl1mall.com) 加载Mapbox地形数据 map.once(style.load, () > {map.addSource(mapbox-dem,…

微信小程序如何使用svg矢量图标

微信小程序如何使用自定义SVG矢量图标 在微信小程序中,经常会用到小图标来装饰界面,我们常用的方法就是引用第三方的图标,但会存在收费或者找不到合适的图标,这时候我建议可以自行编写svg图标代码,就可以随心所欲的使…

后台启动HIVE的JDBC连接

后台启动HIVE的JDBC连接 生活就像一杯咖啡,有时苦涩,有时香甜,但都是值得品味的经历。无论遇到什么挑战,记住在每一天的开始,你都有机会给自己倒上一杯清新的力量,为心灵添一抹温暖。勇敢地面对生活的苦与甜…

从零开始学RSA: [WUSTCTF2020]情书等5题

1 [WUSTCTF2020]情书 题目 Premise: Enumerate the alphabet by 0、1、2、..... 、25 Using the RSA system Encryption:0156 0821 1616 0041 0140 2130 1616 0793 Public Key:2537 and 13 Private Key:2537 and 937flag: wctf2020{Decryption}解题 前提:用0、…

【论文泛读】如何进行动力学重构? 神经网络自动编码器结合SINDy发现数据背后蕴含的方程

这一篇文章叫做 数据驱动的坐标发现与方程发现算法。 想回答的问题很简单,“如何根据数据写方程”。 想想牛顿的处境,如何根据各种不同物体下落的数据,写出万有引力的数学公式的。这篇文章就是来做这件事的。当然,这篇论文并没有…

五分钟了解等级保护、风险评估和安全测评三者的区别和联系?

等级保护 基本概念:网络安全等级保护是指对国家秘密信息、法人和其他组织和公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护,对信息系统中使用的安全产品实行按等级管理,对信息系统中发生的信息安全事件…

vs配置cplex12.10

1.创建c空项目 2.修改运行环境 为release以及x64 3.创建cpp文件 4.鼠标右键点击项目中的属性 5.点击c/c,点击第一项常规,配置附加库目录 5.添加文件索引,主要用于把路径导进来 6.这一步要添加的目录与你安装的cplex的目录有关系 F:\program…

【Qt】按钮类控件

文章目录 1 :peach:Push Button:peach:2 :peach:Radio Buttion:peach:3 :peach:Check Box:peach:4 :peach:Tool Button:peach: 1 🍑Push Button🍑 使⽤ QPushButton 表⽰⼀个按钮,这也是当前我们最熟悉的⼀个控件了,QPushButton …

[Algorithm][BFS][最短路问题][迷宫中离入口最近的出口][最小基因变化][单词接龙][为高尔夫比赛砍树]详细讲解

0.原理讲解 最短路径是图里的常见问题本专题主要讲解边权为一的最短路问题 边权全都相同即可,并非只能为一 方法:从起点开始,来一次BFS即可如何找出最短路径是多长呢? 拓展的层数,就是最短路的长度 1.迷宫中离入口最…

在k8s中安装Grafana并对接Prometheus,实现k8s集群监控数据的展示

🐇明明跟你说过:个人主页 🏅个人专栏:《Grafana:让数据说话的魔术师》 🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、Grafana简介 2、Grafana的重要性与影响力 …

01-基本概念

1. 到底什么是数据结构? 数据结构是指在计算机中组织和存储数据的方式,它涉及到数据元素之间的关系以及对这些关系进行操作的方法。数据结构可以看作是一种将数据组织起来以便有效使用的方式,它关注数据的组织、存储和操作,以及如…

解决github的remote rejected|git存储库的推送保护

前言 git存储库的推送保护。当你试图推送代码到GitHub仓库时,由于存在与主分支(master)相关的仓库规则违规行为,推送会被拒绝了。这种保护机制帮助确保只有经过授权和符合规定的代码才能被合并到主分支,从而保护了主分…

上海亚商投顾:沪指创年内新高 化工板块掀涨停潮

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 三大指数昨日高开震荡,沪指涨超1%续创年内新高,深成指、创业板指均涨约2%。化工股集体…

SQL 基础 | AS 的用法介绍

SQL(Structured Query Language)是一种用于管理和操作数据库的标准编程语言。 在SQL中,AS关键字有几种不同的用法,主要用于重命名表、列或者查询结果。 以下是AS的一些常见用法: 重命名列:在SELECT语句中&a…

maven冲突问题

在编写maven当中的依赖时&#xff0c;有时候会出现一些问题&#xff0c;这种问题为Maven的当中的依赖。 在导入依赖的时候&#xff1a;出现了两种依赖发生了版本冲突的问题&#xff1f; <?xml version"1.0" encoding"UTF-8"?> <project xmlns…

VBA 创建透视表,录制宏,自动化报表

目录 一. 数据准备二. 需求三. 准备好报表模板四. 执行统计操作&#xff0c;录制宏4.1 根据数据源创建透视表4.2 填充数据到报表4.3 结束宏录制 五. 执行录制好的宏&#xff0c;自动化报表 一. 数据准备 ⏹数据源1 姓名学科成绩丁志敏语文91李平平语文81王刚语文64张伊语文50…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-13-按键实验

前言&#xff1a; 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM&#xff08;MX6U&#xff09;裸机篇”视频的学习笔记&#xff0c;在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

自动化运维工具---Ansible

一 Puppet Puppet是历史悠久的运维工具之一。它是一种基础架构即代码(laC)工具&#xff0c;使用户可以定义其基础 架构所需的状态&#xff0c;并使系统自动化以实现相同状态。 Puppet可监视用户的所有系统&#xff0c;并防止任何偏离已定义状态的情况。从简单的工作流程自动…

Mysql数据在磁盘上的存储结构

一. 前言 一行数据的存储格式大致如下所示: 变长字段的长度列表&#xff0c;null值列表&#xff0c;数据头&#xff0c;column01的值&#xff0c;column02的值&#xff0c;column0n的值… 二. 变长字段 在MySQL里有一些字段的长度是变长的&#xff0c;是不固定的&#xff0c;…

设计模式Java实现-工厂模式

✨这里是第七人格的博客✨小七&#xff0c;欢迎您的到来~✨ &#x1f345;系列专栏&#xff1a;设计模式&#x1f345; ✈️本篇内容: 工厂模式✈️ &#x1f371;本篇收录完整代码地址&#xff1a;https://gitee.com/diqirenge/design-pattern &#x1f371; 楔子 记得刚…