Karmada更高效地实现故障转移

随着云原生技术的发展,其应用场景不断扩大。越来越多的企业开始将应用程序部署在 Kubernetes 集群中,随着 Kubernetes 集群规模的不断扩大,也带来了许多管理挑战,例如多集群间负载均衡、资源调度、故障转移等问题。为了解决这些问题,Karmada 多集群管理平台应运而生,同时还提供了强大的故障转移能力。

在多云多集群场景中,为了提高业务的高可用性,工作负载可能会被部署在多个不同的集群。在 Karmada 中,当集群发生故障,或是用户不希望在某个集群上继续运行工作负载时,集群状态将被标记为不可用,并被添加上一些污点。Taint-manager 检测到集群故障之后,会从这些故障集群中驱逐工作负载,被驱逐的工作负载将被调度至其他最适合的集群,从而达成故障迁移的目的,保证了用户业务的可用性与连续性。

一、故障迁移的场景

为何需要故障转移?下面来介绍一些多集群故障迁移的场景:

  • 管理员在 Karmada 控制面部署了一个离线业务,并将业务 Pod 实例分发到了多个集群。突然某个集群发生故障,管理员希望 Karmada 能够把故障集群上的 Pod 实例迁移到其他条件适合的集群中;

  • 普通用户通过 Karmada 控制面在某一个集群上部署了一个在线业务,业务包括服务器实例、配置文件等,服务通过控制面上的 ELB 对外暴露,此时某一集群发生故障,用户希望把整个业务能迁移到另一个情况较适合的集群上,业务迁移期间需要保证服务不断服;

  • 管理员将某个集群进行升级,作为基础设施的容器网络、存储等发生了改变,管理员希望在集群升级之前把当前集群上的应用迁移到其他适合的集群中去,业务迁移期间需要保证服务不断服。

二、如何进行故障迁移

上图展示了两种不同的迁移方式 

Karmada 支持用户设置分发策略,在集群发生故障后,将故障集群实例进行自动的集中式或分散式的迁移。如图用户在 Karmada 中加入了三个集群,分别为:member1、member2 和 member3。

  1. 在 Karmada 的控制面部署了一个副本数为 3 的工作负载,并通过部署策略(PropagationPolicy)将其分发到了集群 member1 和 member2 上。
  2. 当集群 member1发生故障之后,其工作负载上的 Pod 实例将会被驱逐,通过 PropagationPolicy/ClusterPropagationPolicy 的副本调度策略 ReplicaSchedulingStrategy 来控制 Pod 被全部迁移到集群 member2 或是分散迁移至两个集群中。

 

三、工作负载被驱逐的时间线

下面通过示例,简单讲解在 DCE 5.0 多云编排模块中,一个工作负载被驱逐的时间线:

首先,每一段时间调用一次集群的 API 用以记录集群的健康状态,当集群状态始终为健康时,我们认定集群的健康状态正常。此时我们将 DCE 与集群 APIserver 之间的 TCP 断开,10s-20s 之内,若没有获取到集群的健康状态将认为集群异常,被标记为非健康状态,同时打上 NoSchedule 的污点,如果集群的不健康状态持续一段时间,在指定时间内若集群仍然没有恢复健康,超过指定的驱逐容忍时长后,将被打上 NoExecute 的污点,最终被驱逐。

 

 

四、影响故障转移时效的指标

在 Karmada 中启用了 Failover 之后,Karmada 提供了几个参数配置选项,与上图对应,分别为:

ClusterMonitorPeriod:检查集群状态的时间间隔,默认 60s;

ClusterMonitorGracePeriod:运行中标记集群不健康检查时长,默认 40s;

ClusterStartupGracePeriod:启动时标记集群不健康的检查时长,默认 600s;

FailoverEvictionTimeout:驱逐容忍时长,集群被标记为不健康后,超过此时长会给集群打上污点,并进入驱逐状态,默认 30s;

ClusterTaintEvictionRetryFrequency:优雅驱逐超时时长,进入优雅驱逐队列后,最长等待时长,超时后会立即删除,默认 5s。

影响故障转移的延时时效的主要有以下 2 个维度的指标,需要组合配置才能最终达到延迟灵敏度的效果。如何使配置过程更加友好?在我们的 DCE 5.0 多云编排模块中,我们将故障转移的相关配置表单化,能够降低用户的使用门槛,同时提高配置的成功率。

1. 集群维度:标记集群为不健康的检查时长、集群驱逐容忍时长。

 

2. 工作负载维度:集群污点容忍时长。

 

当用户创建资源 PropagationPolicy/ClusterPropagationPolicy 后,Karmada 会通过 webhook 为它们自动增加如下集群污点容忍:

 

 

五、优化故障转移时效的优势

1、提高应用程序的可靠性和可用性

Karmada 故障转移功能可以确保工作负载在节点或集群出现故障时不会直接停机,从而提高应用程序的可靠性和可用性。这对于一些已经部署了庞大的业务系统的企业来说是非常重要的。

 

2、提供快速的恢复能力

Karmada 故障转移功能能够快速迁移工作负载到健康节点或集群上,从而缩短节点恢复的时间,减少业务停机时间,大大节约企业的成本和时间。

3、避免业务流量损失

Karmada 故障转移功能能够及时将故障的工作负载迁移至健康节点或集群,从而避免业务流量损失。

今后,相信随着云原生技术的不断发展和完善,Karmada 的故障转移功能在未来能够更加广泛地应用到各个领域,为企业的业务提供更好的保障。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/192399.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【QT系列教程】之二创建项目和helloworld案例

文章目录 一、QT创建项目1.1、创建项目1.2、选择创建项目属性1.3、选择路径和项目名称1.4、选择构建项目类型1.5、布局方式1.6、翻译文件,根据自己需求选择1.7、选择套件1.8、项目管理,自行配置1.9、配置完成,系统自动更新配置 二、QT界面介绍…

istio学习笔记-安装

Istioldie 1.18 / 安装指南 基于Kubernetes的Istio的微服务架构需要安装以下组件: Istio控制平面组件:包括Istio-Pilot、Istio-Policy、Istio-Telemetry等。这些组件负责微服务的管理和配置,如流量管理、策略执行、遥测数据收集等。数据平面…

2023-11-15 LeetCode每日一题(K 个元素的最大和)

2023-11-15每日一题 一、题目编号 2656. K 个元素的最大和二、题目链接 点击跳转到题目位置 三、题目描述 给你一个下标从 0 开始的整数数组 nums 和一个整数 k 。你需要执行以下操作 恰好 k 次,最大化你的得分: 从 nums 中选择一个元素 m 。将选中…

安装 Lua 的 HTTP 库

首先,你需要安装 Lua 的 HTTP 库。可以使用 LuaRocks 来安装。以下是安装命令: luarocks install http然后,你可以使用以下代码来爬取网页内容: local http require http-- 设置代理信息 http.set_proxy(jshk.com.cn)-- 网页UR…

【C#学习】button:只显示图片

第一步:设置按钮背景图片,并且图片随按钮大小变化 第二步:设置按钮使之只显示图片 button1.FlatStyle FlatStyle.Flat;//stylebutton1.ForeColor Color.Transparent;//前景button1.BackColor Color.Transparent;//去背景button1.FlatAppe…

Flutter笔记:使用Flutter构建响应式PC客户端/Web页面-案例

Flutter笔记 使用Flutter构建响应式PC客户端/Web页面-案例 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/qq_28550263/article/detai…

Live800:客服行业的发展历程及未来前景

随着信息技术和互联网的高速发展,客服行业也在不断变革和发展。客服行业是一个服务型的行业,其发展历程也与人们对服务需求的变化密切相关。本文将介绍客服行业的发展历程和未来前景。 客服行业的发展历程 20世纪70年代,客服行业主要以电话服…

uniapp运行到安卓模拟器一直在“同步手机端程序文件完成“界面解决办法

如果你是用的模拟器是android studio创建的模拟器,那么你需要新创建一个android11 x86架构的模拟器: 创建完成后,启动模拟器: 然后在hbuilder中重新运行到这个模拟器就可以了: 运行结果: 如果你是用安…

算法:穷举,暴搜,深搜,回溯,剪枝

文章目录 算法基本思路例题全排列子集全排列II电话号码和字母组合括号生成组合目标和组合总和优美的排列N皇后有效的数独解数独单词搜索黄金矿工不同路径III 总结 算法基本思路 穷举–枚举 画出决策树设计代码 在设计代码的过程中,重点要关心到全局变量&#xff…

在windows上利用vmware17 搭建centos7 mini版本服务器

安装centos7mini 修改名称和安装路径 也可以点击自定义硬件,进行硬件配置修改 设置内存 设置处理器 点击下图按钮进行设置 点击done 点击开始安装 点击设置root密码 设置成功,点击done ,root密码设置的简单的话需要按两次done 等待安装完成…

【算法与数据结构】46、47、LeetCode全排列I, II

文章目录 一、46.全排列I二、47.全排列II三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、46.全排列I 思路分析:本题要求是全排列,意味着每次递归的时候startIndex都要从0开始,否则…

Java排序算法之归并排序

图解 归并排序是一种效率比较高的分治排序算法,主要分为两个步骤,分别为“分”和“并”。 分:将序列不断二分,直到每个子序列只有一个元素为止。 并:将相邻两个子序列进行合并,合并时比较两个子序列的元素…

数字人,虚拟数字人——你看好数字人领域的发展吗?

你看好数字人领域的发展吗? 目录 一、虚拟人、数字人、虚拟数字人基本概念 1.1、虚拟人(Virtual Person) 1.2、 数字人(Digital Human) 1.3、虚拟数字人(Virtual Digital Human) 1.4、侧重…

牛客网:OR36 链表的回文结构

一、题目 函数原型: bool chkPalindrome(ListNode* A) 二、思路 判断一个单链表是否为回文结构,由于单链表不能倒序遍历,所以需要找到单链表的后半段,并将其逆置,再与前半段链表进行比较。 如何找到单链表的后半段呢&a…

Scala---方法与函数

一、Scala方法的定义 有参方法&无参方法 def fun (a: Int , b: Int) : Unit {println(ab) } fun(1,1)def fun1 (a: Int , b: Int) ab println(fun1(1,2)) 注意点: 方法定义语法 用def来定义可以定义传入的参数,要指定传入参数的类型方法可以写返…

CSS的初步学习

CSS 层叠样式表 (Cascading Style Sheets). CSS 能够对网页中元素位置的排版进行像素级精确控制, 实现美化页面的效果. 能够做到页面的样式和结 构分离. CSS 就是 “东方四大邪术” 之化妆术 CSS 基本语法规范: 选择器 若干属性声明 选择器决定针对谁修改 (找谁) 声明决定修…

uniapp 小程序 身份证 和人脸视频拍摄

使用前提&#xff1a; 已经在微信公众平台的用户隐私协议&#xff0c;已经选择配置“摄像头&#xff0c;录像”等权限 开发背景&#xff1a;客户需要使用带有拍摄边框的摄像头 &#xff0c;微信小程序的方法无法支持&#xff0c;使用camera修改 身份证正反面&#xff1a; <…

IDEA 2022创建Spring Boot项目

首先点击New Project 接下来&#xff1a; (1). 我们点击Spring Initializr来创建。 (2). 填写项目名称 (3). 选择路径 (4). 选择JDK------这里笔者选用jdk17。 (5). java选择对应版本即可。 (6). 其余选项如无特殊需求保持默认即可。 然后点击Next。 稍等一会&#xff0c…

[Android]修改应用包名、名称、版本号、Icon以及环境判断和打包

1.修改包名 在Android Studio中更改项目的包名涉及几个步骤&#xff1a; 打开项目结构: 在Android Studio中&#xff0c;确保您处于Android视图模式&#xff08;在左侧面板顶部有一个下拉菜单可以选择&#xff09;。 重命名包名: 在项目视图中&#xff0c;找到您的包名&…

Mac M2/M3 芯片环境配置以及常用软件安装-前端

最近换了台新 Mac&#xff0c;所有的配置和软件就重新安装下&#xff0c;顺便写个文章。 一、环境配置 1. 安装 Homebrew 安装 Homebrew【Mac 安装 Homebrew】 通过国内镜像安装会比较快 /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Ho…