K8S调度不平衡问题分析过程和解决方案

不平衡问题排查

问题描述
1、业务部署大量pod(据反馈,基本为任务型进程)过程中,k8s node内存使用率表现不均衡,范围从80%到百分之几;
2、单个node内存使用率超过95%,仍未发生pod驱逐,存在node不可正常运维风险;
期望效果
尽量保持pod调度平衡;
node内存使用率达到一定阈值,开始触发pod驱逐

分析过程

原理依据

K8S调度涉及到亲和性、资源可用情况等因素,而本案例是可调度但是调度后造成节点内存使用率差距很大,也即pod分布(基于内存使用率)不平衡;
Kube-Scheduler作为控制面节点接触,负责pod如何绑定到node的逻辑执行,一般默认为default-scheduler,且支持插件化配置和开发;
Kubelet作为K8S Node Agent,实际执行着创建、销毁以及驱逐pod的逻辑,其中驱逐分为软驱逐和硬驱逐,参数名为

--evited-hard=memory.available<100Mi 
--evited-soft=memory.available<100Mi

其中memory.available设置了触发驱逐的阈值,也即大于等于此阈值则在当前node发生pod驱逐

案例分析

Pod分布不平衡(按内存使用率)

内存使用率范围(0%,85%),监控如下图:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

驱逐

未明确设定驱逐参数,如下图:
在这里插入图片描述

改进方案

Pod分布不平衡(按内存使用率)

由第二章分析可知,目前集群使用的调度器是default-scheduler,而该调度器不会直接监控节点的内存使用率,因此需要将节点的内存使用率加入调度逻辑(一般是算分阶段,进而影响最终排序),考虑到改动时间成本等因素(可参考第五章使用第三方调度等,单改动较大,风险也大),可以指定scheduler启动配置文件如下:

cat KubeSchedulerConfiguration.yamlapiVersion: kubescheduler.config.k8s.io/v1beta2
kind: KubeSchedulerConfiguration
profiles:- schedulerName: default-schedulerplugins:score:enabled:- name: PodTopologySpread- name: NodeResourcesFitpluginConfig:- args:scoringStrategy:resources:- name: cpuweight: 1- name: memoryweight: 10type: LeastAllocatedname: NodeResourcesFit- name: PodTopologySpreadargs:defaultingType: "List"defaultConstraints:- maxSkew: 1topologyKey: kubernetes.io/hostnamewhenUnsatisfiable: ScheduleAnywaymemoryWeight: 5  # 设置 memory 权重为 5,表示内存使用更重要

参数形如: --config=/path/to/ KubeSchedulerConfiguration.yaml
启动形如:kube-scheduler --config=/path/to/ KubeSchedulerConfiguration.yaml <...其他参数>
效果:
在这里插入图片描述

驱逐

前提:需要安装集群monitor
根据分析过程分析可知,kubelet未指定驱逐参数,此时kubelet会以memory.available<100Mi 运行,而node节点的内存范围为[376G,750G],默认驱逐值明显不适用,因此建议设置合理值,目前推荐如下:

 --evited-hard=memory.available<40G --evited-soft=memory.available<50G

或者按如下kubelet配置:
在这里插入图片描述
效果如下:
在这里插入图片描述

建议

此问题反映出资源分配和调度的问题,涉及范围较为综合,运维侧提供了较为稳定的iaas平台环境,很多场景可以保证资源的使用率,此时从资源充分使用角度落地方案;当节点数固定时,提出了资源使用平衡,则调度器需要较为实时感知到资源使用情况(此案例为内存使用率),以选择适合的节点进行绑定调度。

参考

案例参考:https://segmentfault.com/a/1190000042005893
其他组件:
Trimaran 官网地址:https://github.com/kubernetes-sigs/scheduler-plugins/tree/master/pkg/trimaran
descheduler 官网地址:https://github.com/kubernetes-sigs/descheduler

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/455593.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW提高开发效率技巧----离线调试

离线调试是LabVIEW开发中一项重要的技巧&#xff0c;通过使用Simulate Signal Express VI生成虚拟数据&#xff0c;开发者能够有效减少对实际硬件的依赖&#xff0c;加速开发过程。这种方法不仅可以提高开发效率&#xff0c;还能降低成本&#xff0c;增强系统的灵活性。 ​ 离…

不同企业规模,外贸财务系统如何灵活应对

ZohoBooks外贸财务系统适用于不同规模企业。小型企业注重成本和易用性&#xff0c;中型企业追求性价比&#xff0c;大型企业看重全面性、数据安全和集成性。企业选择时需考虑实际需求和成本&#xff0c;建议先试用再决定。 一、小型外贸企业 小型外贸企业通常业务规模相对较小…

使用Airtest自动化某云音乐爬取歌曲名称

简介 本文将介绍如何使用Airtest自动化工具来模拟用户操作&#xff0c;从某云音乐中爬取与特定关键词相关的歌曲名称。我们将以搜索“文字”相关的歌曲为例&#xff0c;并将结果保存到本地文件。 准备工作 安装Airtest并配置好Android设备或模拟器。确保你的设备上已安装某云…

项目管理新趋势!2024年,Jira与禅道你更倾向谁?

一、 项目管理软件新趋势概述 2024 年&#xff0c;项目管理软件呈现出诸多新趋势&#xff0c;这些趋势对于项目管理的重要性日益凸显。 在数字化转型方面&#xff0c;项目管理软件成为企业实现数字化转型的关键工具。越来越多的企业认识到&#xff0c;通过项目管理软件可以实…

【T+】畅捷通T+软件更新补丁提示当前系统中没有安装T+产品

【问题描述】 在更新畅捷通T软件补丁的时候&#xff0c; 提示&#xff1a;当前系统中没有安装T产品。但是本机电脑上还能正常打开软件操作使用。 【解决方法】 首先查看控制面板程序中没有T产品&#xff0c;即下图没有T产品信息。 原因是因为控制面板注册表中没有T产品信息。…

机器学习-树结构2-随机森林

上一篇的链接&#xff1a; 机器学习 - 树结构1 - 随机森林-CSDN博客 随机森林的改进方向1&#xff1a; 现有的随机森林中不同决策树中特征的选取是随机的&#xff0c;即先用哪个特征对样本进行分类&#xff0c;再用哪个特征对样本进行分类&#xff0c;特征的选取是随机的&…

[Python学习日记-54] 软件开发目录设计规范

[Python学习日记-54] 软件开发目录设计规范 简介 为什么要设计好目录结构&#xff1f; 目录组织方式 关于 README 的内容 关于 setup.py 和 requirements.txt 关于配置文件的使用方法 简介 我们在浏览一些开源项目或者是一些安装后的软件的时候会发现&#xff0c;不同的两…

解决:IntelliJ IDEA 项目中代码文件不能运行的问题(即:J 标文件的问题)

1、问题描述&#xff1a; 其一、需求为&#xff1a; 想要通过 IntelliJ IDEA 软件打开原 Eclipse 项目文件或新 Java 项目&#xff0c;能正常运行 .java 文件中的代码; 其二、问题描述为&#xff1a; A、通过 IntelliJ IDEA 打开 java 项目&#xff0c;并在打开具体的 .jav…

记nvm管理node

前言 解决来回切换node版本适应不同项目 一、nvm是什么&#xff1f; nvm是用于管理多个 nodejs 的版本控制工具 二、使用步骤 1.卸载nodeJs 若是本地原先有nodeJs版本的话需要先卸载&#xff0c;若是没有则跳过这一步&#xff0c;可以通过命令行来确定是否存在node node…

【C++11】右值引用和移动语义

1 右值引用和移动语义 C98的C语法中就有引用的语法&#xff0c;而C11中新增了的右值引用语法特性&#xff0c;C11之后我们之前学习的引用就叫做左值引用。无论左值引用还是右值引用&#xff0c;都是给对象取别名。 1.1 左值和右值 左值是⼀个表示数据的表达式(如变量名或解引用…

HbuilderX 连接 Genymotion 模拟器

最近在琢磨 uni-app 开发 app 应用&#xff0c;并且想要基于模拟器调试&#xff1b;但模拟器安装好以后&#xff0c;Hbuilder 始终识别不了&#xff08;识别成功了也运行不了代码&#xff09; 模拟器&#xff1a;Genymotion &#xff1b;这款模拟器用于开发调试是比较流畅的。当…

如何禁止上班期间浏览无关网站?

禁止员工在上班期间浏览无关网页主要是为了提升工作效率和生产力&#xff0c;确保员工能够专注于工作任务。同时&#xff0c;这种做法有助于降低网络安全风险&#xff0c;防止恶意软件和钓鱼攻击&#xff0c;减少数据泄露和法律风险&#xff0c;维护公司的专业形象&#xff0c;…

【系统配置】命令行修改统信UOS的grub启动延时

往期好文&#xff1a;【命令操作】Linux中多种关机和重启的命令介绍 | 统信 | 麒麟 | 方德 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇关于如何通过命令行配置统信UOS系统的启动延时的文章。在某些场景中&#xff0c;调整系统的启动延时可以帮助用户在系统启动过…

实践OpenVINO™ GenAI

前言 随着 ChatGPT 等聊天机器人的风暴席卷全球&#xff0c;生成式预训练 Transformers &#xff08;GPT&#xff09; 在开发者中正在成为家喻户晓的新名字。生成式 AI&#xff08;GenAI&#xff09; 的发展&#xff0c;尤其是大语言模型和聊天机器人的进步很快、变化不断&…

短剧AI突围战,百度跑偏了

“ 百度短剧的Agent对话功能并不属于颠覆性创新&#xff0c;只是新插件&#xff0c;对短剧行业市场格局影响不大&#xff0c;最多只能算用户痒点。 ” 转载&#xff1a;科技新知 原创 作者丨晓伊 编辑丨蕨影 你是否有过这样的体验&#xff1f; 刷短剧时&#xff0c;因剧情曲…

GraphLLM:基于图的框架,通过大型语言模型处理数据

GraphLLM是一个创新的框架&#xff0c;它允许用户通过一个或多个大型语言模型&#xff08;LLM&#xff09;来处理数据。这个框架不仅提供了一个强大的代理&#xff0c;能够执行网络搜索和运行Python代码&#xff0c;还提供了一套工具来抓取网页数据&#xff0c;并将其重新格式化…

若依前后分离版集成积木报表

1.项目后端结构如下 2.引入JimuReport依赖&#xff0c;在ruoyi-framework的.pom文件中引入积木报表最新依赖,我使用的是1.6.0&#xff0c;可通过 积木报表官网 - JimuReport报表,免费的企业级Web报表工具(可视化报表_低代码报表_在线大屏设计器) 查询最新版本号 <dependenc…

【c++差分数组】P9583涂色

本文涉及知识点 C差分数组 P9583涂色 n行m列方格纸&#xff0c;初始是白色(0层)。共涂色q次&#xff0c;每次选择一行或一列&#xff0c;将这行或列涂一层颜色。如果某次涂色后&#xff0c;某个单格是k层颜色&#xff0c;则涂为白色(0层&#xff09;。求最后被涂色的单格数量…

【Golang】Gin框架中如何定义路由

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

2024 年最热门的人工智能趋势

文章目录 1. 生成式人工智能&#xff08;Generative AI&#xff09;的全面普及2. 多模态 AI 的崛起3. AI 与自动化的深度融合4. 隐私保护与安全 AI5. AI 驱动的个性化体验6. 低代码与无代码 AI 开发工具7. AI 与边缘计算的结合总结 博主介绍&#xff1a;全网粉丝10w、CSDN合伙人…