一些elasticsearch重要概念与配置参数

ES 是在 lucene 的基础上进行研发的,隐藏了 lucene 的复杂性,提供简单易用的 RESTful Api接口。ES 的分片相当于 lucene 的索引。

Node 节点的几种部署实例
实例一: 只用于数据存储和数据查询,降低其资源消耗率

node.master: false
node.data: true

实例二: 来协调各种创建索引请求或者查询请求,但不存储任何索引数据

node.master: true
node.data: false

实例三: 主要用于查询负载均衡, 并请求分发到多个指定的node服务器,并对各个node服务器返回的结果进行一个汇总处理,最终返回给客户端

node.master: false
node.data: false

实例四: 即有成为主节点的资格,又存储数据

node.master: true
node.data: true

在只有3个节点的部署方案中,建议设置3个节点均有成为master节点的资格,且存储索引数据。

数据目录配置与物理磁盘的使用
一般来说,是这样配置:

path:logs: /var/log/elasticsearchdata: /var/data/elasticsearch

数据目录可以支持使用多个:

path:data:- /mnt/elasticsearch_1- /mnt/elasticsearch_2- /mnt/elasticsearch_3

物理磁盘的使用:

虽然es已经提供了数据副本的冗余,但实际生产中还是建议使用raid1,raid5和raid10
集群名称配置

cluster.name: logging-prod

node节点名称
默认为使用主机名,也可以在elasticsearch.yml中指定。在一个主机上同时跑多个es实例时,这个配置项就会很有帮助。

node.name: prod-data-2


网络地址配置
默认将服务绑定到loopback接口,这需要按实际情况调整。

network.host: 0.0.0.0


注:变更服务绑定接口后,会被认为是作为生产环境使用,会触发es的环境检查操作。当有不符要求的系统或集群配置参数时,es服务会无法启动。

节点发现和cluster初始化参数
单播主机列表通过discovery.zen.ping.unicast.hosts来配置。
这个配置在 elasticsearch.yml 文件中:

discovery.zen.ping.unicast.hosts: ["host1", "host2:port"]


具体的值是一个主机数组或逗号分隔的字符串。每个值应采用host:port或host的形式(其中port默认为设置transport.profiles.default.port,如果未设置则返回transport.tcp.port)。请注意,必须将IPv6主机置于括号内。此设置的默认值为127.0.0.1,[:: 1]。

使用单播,你可以为 Elasticsearch 提供一些它应该去尝试连接的节点列表。当一个节点联系到单播列表中的成员时,它就会得到整个集群所有节点的状态,然后它会联系 master 节点,并加入集群。

discovery.seed_hosts:- 192.168.1.10:9300- 192.168.1.11- seeds.mydomain.com
cluster.initial_master_nodes:- master-node-a- master-node-b- master-node-c


提供了seed.hosts参数的三种赋值方式

initial_master_nodes参数只能使用节点的node.name参数值,一般来说是主机名
Zen Discovery 是 ES 默认内建发现机制。它提供单播和多播的发现方式,并且可以扩展为通过插件支持云环境和其他形式的发现。
Elasticsearch 官方推荐我们使用 单播 代替 组播。而且 Elasticsearch 默认被配置为使用 单播 发现,以防止节点无意中加入集群。
设置JVM heap size
通过jvm.options文件设置jvm缓存参数,过大或过小都不好,过大的缓存也会让垃圾回收变慢。

当jvm缓存设置大于26GB时,需要评估zero-based compressed oops限制,参见下面的说明:
https://www.elastic.co/guide/en/elasticsearch/reference/current/heap-size.html

由于ES构建基于lucene, 而lucene设计强大之处在于lucene能够很好的利用操作系统内存来缓存索引数据,以提供快速的查询性能。lucene的索引文件segements是存储在单文件中的,并且不可变,对于OS来说,能够很友好地将索引文件保持在cache中,以便快速访问;因此,我们很有必要将一半的物理内存留给lucene ; 另一半的物理内存留给ES(JVM heap )。所以, 在ES内存设置方面,可以遵循以下原则:

当机器内存小于64G时,遵循通用的原则,50%给ES,50%留给lucene。
当机器内存大于64G时,遵循以下原则:
a. 如果主要的使用场景是全文检索, 那么建议给ES Heap分配 4~32G的内存即可;其它内存留给操作系统, 供lucene使用(segments cache), 以提供更快的查询性能。
b. 如果主要的使用场景是聚合或排序, 并且大多数是numerics, dates, geo_points 以及not_analyzed的字符类型, 建议分配给ES Heap分配 4~32G的内存即可,其它内存留给操作系统,供lucene使用(doc values cache),提供快速的基于文档的聚类、排序性能。
c. 如果使用场景是聚合或排序,并且都是基于analyzed 字符数据,这时需要更多的 heap size, 建议机器上运行多ES实例,每个实例保持不超过50%的ES heap设置(但不超过32G,堆内存设置32G以下时,JVM使用对象指标压缩技巧节省空间),50%以上留给lucene。
禁止swap,一旦允许内存与磁盘的交换,会引起致命的性能问题。 通过: 在elasticsearch.yml 中 bootstrap.memory_lock: true, 以保持JVM锁定内存,保证ES的性能。操作系统通过交换(swap)将内存的分页写入磁盘,es在内存中保留了很多运行时必需的数据和缓存,所以消耗磁盘的操作将严重影响正在运行的集群。
关闭es交换最彻底的方法是,在elasticsearch.yml文件中将bootstrap.mlockall设置为true 。
GC设置原则:

  1.  保持GC的现有设置,默认设置为:Concurrent-Mark and Sweep (CMS),别换成G1GC,因为目前G1还有很多BUG。
  2.  保持线程池的现有设置,目前ES的线程池较1.X有了较多优化设置,保持现状即可;默认线程池大小等于CPU核心数。如果一定要改,按公式((CPU核心数* 3)/ 2)+ 1 设置;不能超过CPU核心数的2倍;但是不建议修改默认配置,否则会对CPU造成硬伤。

Temp directory配置
在使用.tar.gz方式部署es服务时,建议指定一个安全的临时文件目录,避免因为默认使用的/tmp下的临时目录被操作系统定期删除,造成服务故障。
通过环境变量 $ES_TMPDIR 来设置。

分片分配的感知
分配感知(allocation awareness)是管理在哪里放置数据的副本。
https://www.elastic.co/guide/en/elasticsearch/reference/7.2/allocation-awareness.html

1. 基于分片的分配
分配感知允许用户使用自定义的参数来配置分片的分配。通过定义一组键,然后在合适的节点上设置这个键,就可以开启分配感知。
elasticsearch.yml

cluster.routing.allocation.awareness.attributes: rack_id


注:支持赋多个值同时用作感知属性,如cluster.routing.allocation.awareness.attributes: rack, group, zone

针对每个es节点,用户可以修改elasticsearch.yml,按期待的网络配置来设置该值。ES允许用户在节点上设置元数据,这些元数据的键将成为我们要使用的分配感知参数。

node.attr.rack_id: rack_one


当有多个es节点可用时,es会尽量把分片与副本均衡到rack_id值不同的节点上去。但如果只剩一个可用的es数据节点了,es也会选择把一个索引的分片和副本全部部署在同一个节点上面。

常见的使用场景是按照地点、机架或是虚拟机等来划分集群的拓扑。

2. 强制性的分配感知
在用户事先规则好分片分组信息,且希望限制每个分组的副本分片数量时,强制分配感知是适用的解决方法。
在这种情况下,即便因为部分分组的数据节点不可用,导致es服务可用性风险,es也不会把索引的分片与副本都部署在相同的分组节点上面。

例如,用户想在区域级别使用强制分配。可以先指定一个zone的属性,然后为该分组添加多个维度。如下所示:

cluster.routing.allocation.awareness.attributes: zone
cluster.routing.allocation.force.zone.values: us-east, us-west


此时,我们在东部地区启用了一批节点,这些节点的配置都是node.attr.zone: us-east ,在创建索引时由于以上限制,副本分片只会被均衡到没有相应zone值的节点上去。

3. 动态设置分片感知
可以通过集群设置API在运行时进行修改,这个修改的效果可以自行选择是持久的,还是临时性的。

curl -XPUT localhost:9200/_cluster/settings -d '{"persistent": {"cluster.routing.allocation.awareness.attributes": zone"cluster.routing.allocation.force.zone.values": us-east, us-west}
}'

分片


分片数量

  • ES7.0版本开始,新建索引时,默认只有一个主分片。优点在于:单个分片,查询算分和聚合不准的问题都可以得到避免;缺点在于:即便增加新的节点,也无法实现水平扩展。
  • 如果有两个主分片,当集群增加节点后,es会自动进行分片移动(Shard Rebalancing),将本分布在一个节点的两个分片平衡为两个节点,每个节点一个分片。
  • 当分片数>节点数时:一旦集群中有新的数据节点加入,分片就可以自动分配;分片在重新分配时,系统也可以正常工作。
  • 多分片的好处:一个索引如果分布在多个节点,查询可以并行,写入可以分散到多个机器。
  • 例1:每天1GB,一个索引,一个主分片,一个副本分片。保留半年,共180*2 = 360G数据 = 360个分片。
  • 例2:五个不同日志,每天一个日志索引,每个日志索引有10个主分片,保留半年,共180*5*10 = 9000个分片。
  • 分片是es实现集群水平扩展的最小单位。
  • 当分片过多时,会导致额外的性能开销:
  • 每次搜索,需要从每个分片获取数据。
  • 分片的Meta信息会变多,增加主节点的负担。

分片建议

  • 日志类应用,单分片不超50GB。
  • 搜索类应用,单分片不超20GB。
  • 为什么要控制:
    • 提高更新时的性能。
    • 分片合并时,减少所需资源。
    • 节点丢失后,具备更快恢复速度(分片小便于在集群内移动)

副本建议

  • 副本是主分片的拷贝,目的是提高系统可用性:可以执行查询,并且避免数据丢失;副本分片需要占用和主分片一样的资源。
  • 副本分片会降低数据的索引(写入)速度:有几份副本就会有几倍的CPU资源消耗。
  • 可以减缓对主分片的查询压力,但是会消耗同样的内存资源;如果机器资源充分,提高副本数可以提高整体的查询QPS。

相关设置

  • Es分片策略会尽量保证节点上的分片数大致相同。可能会产生问题: 扩容时,原有节点磁盘基本写满了,新索引会集中在新加的节点上,导致数据分布不均匀。
  • index.routing.allocation.total_shards_per_node设置为1,可以限制一个索引在单个节点上只能有一个分片(主分片或者副本)

参考链接:                       

                        Elasticsearch:分片和集群设计_es 只有一个分片可以吗-CSDN博客

Step by step怎样部署一套生产环境下的elastic stack 7.2技术栈【一】—— 需要掌握的一些elastic重要概念与配置参数_生产环境部署elasticsearch7.2 3台主机 如何分配节点属性-CSDN博客
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/494371.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java字符串的|分隔符转List实现方案

字符串处理 问题背景代码实现代码优化原因分析实现方案 注意事项异常处理Maven未识别异常 问题背景 在项目组对账流程中,接收对方系统的对账文件,数据以|为分隔符,读取文件内容,分条入库。 代码实现 Java中将字符串转给list&am…

「Mac畅玩鸿蒙与硬件47」UI互动应用篇24 - 虚拟音乐控制台

本篇将带你实现一个虚拟音乐控制台。用户可以通过界面控制音乐的播放、暂停、切换歌曲,并查看当前播放的歌曲信息。页面还支持调整音量和动态显示播放进度,是音乐播放器界面开发的基础功能示例。 关键词 UI互动应用音乐控制播放控制动态展示状态管理按钮…

iOS从Matter的设备认证证书中获取VID和PID

设备认证证书也叫 DAC, 相当于每个已经认证的设备的标识。包含了 VID 和 PID. 根据 Matter 对于设备证书的规定,DAC证书subject应该包含VID 和 PID. 可通过解析 X509 证书读取subject 来获得信息。 1 通过 SPM 添加X509 git地址:https://github.com/ap…

计算机毕业设计PyFlink+Hadoop广告推荐系统 广告预测 广告数据分析可视化 广告爬虫 大数据毕业设计 Spark Hive 深度学习 机器学

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

(2024.12)Ubuntu20.04安装openMVS<成功>.colmap<成功>和openMVG<失败>记录

一、安装openMVS 官方文档:https://github.com/cdcseacave/openMVS/wiki/Building sudo apt-get -y install git mercurial cmake libpng-dev libjpeg-dev libtiff-dev libglu1-mesa-dev eigen git clone https://gitlab.com/libeigen/eigen --branch 3.4 mkdi…

UE5 猎户座漂浮小岛 12 技能 瞬移 重力控制

1. 瞬移 1.1. 显示鼠标光标 “事件开始运行”添加显示鼠标逻辑 1.2. 释放技能蓝图 设置技能键 编写蓝图 1.3. 瞬移最大距离 2. 重力控制 2.1. 添加输入与动画 映射 重定向得到动画 新增状态FIRE_GracityControl 设置动画姿势 新增变量 切换动画 2.2. 技能蓝图(…

叉车作业如何确认安全距离——UWB测距防撞系统的应用

叉车在工业环境中运行,常常需要在狭窄的空间内完成货物的搬运和堆垛,这对操作员的技术水平和安全意识提出了极高的要求。传统的叉车作业依赖操作员的经验和视觉判断来确认安全距离,然而这种方式往往存在误差,特别是在视线受阻或光…

深度学习每周学习总结J9(Inception V3 算法实战与解析 - 天气识别)

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 | 接辅导、项目定制 目录 0. 总结Inception V1 简介Inception V3 简介1. 设置GPU2. 导入数据及处理部分3. 划分数据集4. 模型构建部分5. 设置超参数&#xff1…

记录仪方案_记录仪安卓主板定制_音视频记录仪PCBA定制开发

记录仪主板采用了强大的联发科MTK8768处理器,拥有出色的性能表现。它搭载了四个主频为2.0GHz的Cortex-A53核心与四个主频为1.5GHz的Cortex-A53核心,确保了高效的处理速度。此外,主板配备了4GB的RAM(可选8GB),并且内置64GB的ROM(可…

梳理你的思路(从OOP到架构设计)_简介设计模式

目录 1、 模式(Pattern) 是较大的结构​编辑 2、 结构形式愈大 通用性愈小​编辑 3、 从EIT造形 组合出设计模式 1、 模式(Pattern) 是较大的结构 组合与创新 達芬奇說:簡單是複雜的終極形式 (Simplicity is the ultimate form of sophistication) —Leonardo d…

JavaScriptEs6 - String类和Array类扩展内容

title: Javascript-ES6扩展写法 date: 2024-12-23 00:12:19 推荐在我的个人博客网站上访问本文章:shenying.website String 对象扩展 模版字符串 类似字符串的写法,用 来包裹字符串,优点是可以不用反斜杠就能在代码中多行编辑。对于模版字…

图书管理系统:提升图书馆服务质量的技术解决方案

可行性分析 在项目进行开发之前,必须要有可行性分析报告,分别从技术角度,经济角度,操作角度上面进行分析,经过可行性分析是实现科学开发的必要步骤。 3.1.1技术可行性 从技术的角度出发,目前采用开发的技术…

Unity中有什么情况下是需要用UniTask替代其他异步方式的吗?

在Unity开发中,是否需要使用UniTask替代其他异步方式(如Coroutine或Task),取决于项目需求、代码风格和性能考量。UniTask是一个第三方库,主要用于优化和简化Unity环境下的异步编程,它提供了诸多优势&#x…

NLP 中文拼写检测开源-01-基于贝叶斯公式的拼写检查器 CSC

拼写纠正系列 NLP 中文拼写检测实现思路 NLP 中文拼写检测纠正算法整理 NLP 英文拼写算法,如果提升 100W 倍的性能? NLP 中文拼写检测纠正 Paper java 实现中英文拼写检查和错误纠正?可我只会写 CRUD 啊! 一个提升英文单词拼…

SpringBoot核心:自动配置

有使用过SSM框架的,还记得曾经在spring-mybatis.xml配置了多少内容吗?数据源、连接池、会话工厂、事务管理,而现在Spring Boot告诉你这些都不需要了,简单的几个注解统统搞定,是不是很方便! 前言 SpringBoo…

重温设计模式--职责链模式

文章目录 职责链模式的详细介绍C 代码示例C示例代码2 职责链模式的详细介绍 定义与概念 职责链模式(Chain of Responsibility Pattern)是一种行为型设计模式,它旨在将请求的发送者和多个接收者解耦,让多个对象都有机会处理请求&a…

微信小程序UI自动化测试实践 !

微信小程序UI自动化测试实践 引言: 随着微信小程序的快速发展,越来越多的企业和开发者开始开发小程序来满足用户的需求。而在开发小程序的过程中,UI自动化测试是一个必不可少的环节,可以帮助开发者减少人工测试的工作量&#xff…

C#在自定义事件里传递数据

通过自定义事件来传值。此种方法适合于写驱动程序。进行数据采集。 对于一般的系统事件,是有两个参数的,一个是sender,一个是EventArgs,对于sender,个事件的触发者,一般指向的是一个控件,但是对…

MacroSan 2500_24A配置

双控制器电源同时按下,切记/切记/切记 默认信息 默认地址:192.168.0.210 输入ODSP授权后设置密码## 配置端口 物理资源–>设备–>网口–>eth-1:0:0或eth-2:0:0 创建存储池 存储资源–>存储池 介质类型:混合(支持机械及SSD)全闪(仅支持SSD) RAID类型:CRAID-P(基于磁…

法学硕士,有哪些专业可以申请呢?

同等学力申请硕士学位 (简称“同等学力申硕”) 是指本科毕业获得学士学位的人员,通过工作之余的时间参与课程的学习, 把专业知识水平提升至研究生毕业的同等水平, 在院校的专业考核和国家统考成绩通过后, 成…