DEVOPS: 集群伸缩原理

概述

  • 阿里云 K8S 集群的一个重要特性,是集群的节点可以动态的增加或减少
  • 有了这个特性,集群才能在计算资源不足的情况下扩容新的节点,同时也可以在资源利用
    率降低的时候,释放节点以节省费用
  • 理解实现原理,在遇到问题的时候,我们就可以高效地排查并定位原因
  • 我们的讨论基于1.12.6 版本

节点增加原理

  • 阿里云 K8S 集群可以给集群增加节点的方式有,添加已有节点,集群扩容,和自动伸缩
  • 其中,添加已有节点又可分为手动添加已有节点和自动添加已有节点
  • 节点的增加涉及到的组件有,节点准备,弹性伸缩(ESS),管控,Cluster Autoscaler 以及调度器

手动添加已有节点

  • 节点准备,其实就是把一个普通的 ECS 实例,安装配置成为一个 K8S 集群节点的过程
  • 这个过程仅靠一条命令就可以完成,这条命令使用 curl 下载 attach_node.sh 脚本
  • 然后以 openapi token 为参数,在 ECS 上运行
  • curl http:///public/pkg/run/attach//attach_node.sh | bash -s – --openapi-token
    • 这里 token 是一个对的 key,而 value 是当前集群的基本信息
    • 阿里云 K8S集群的管控,在接到手动添加已有节点请求的时候
    • 会生成这个对,并把 key 作为token 返回给用户
    • 这个 token(key)存在的价值,是其可以让 attach_node.sh 脚本
    • 以匿名身份在 ECS 上索引到集群的基本信息(value)
    • 而这些基本信息,对节点准备至关重要
  • 总体上来说,节点准备就做两件事情,读和写,读即数据收集,写即节点配置
  • 这里的读写过程,绝大部分都很基础,大家可以通过阅读脚本来了解细节
  • 唯一需要特别说明的是,kubeadm join 把节点注册到 Master 的过程
  • 此过程需要新加节点和集群 Master 之间建立互信
  • 一边,新加节点从管控处获取的 bootstrap token
    • 与 openapi token 不同,此token 是 value 的一部分内容
    • 实际上是管控通过可信的途径从集群 Master 上获取的
    • 新加节点使用这个 bootstrap token 连接 Master
    • Master 则可通过验证这个 bootstrap token 来建立对新加节点的信任
  • 另一边,新加节点以匿名身份从 Master kube-public 命名空间中获取集群cluster-info
    • cluster-info 包括集群 CA 证书,和使用集群 bootstrap token 对这个 CA 做的签名
    • 新加节点使用从管控处获取的 bootstrap token
    • 对 CA 生成 b 新的签名,然后将此签名与 cluster-info 内签名做对比
    • 如果两个签名一致,则说明cluster-info 和 bootstrap token 来自同一集群
    • 新加节点因为信任管控,所以建立对 Master 的信任

自动添加已有节点

  • 自动添加已有节点,不需要人为拷贝黏贴脚本到 ECS 命令行来完成节点准备的过程
  • 管控使用了 ECS userdata 的特性,把类似以上节点准备的脚本,写入ECS userdata
  • 然后重启 ECS 并更换系统盘。当 ECS 重启之后,会自动执行 Userdata 里边的脚本
  • 来完成节点添加的过程。这部分内容,大家其实可以通过查看节点 userdata 来确认

!/bin/bash

mkdir -p /var/log/acs
curl http:///public/pkg/run/attach/1.12.6-aliyun.1/attach_node.sh | bash
-s -- --docker-version --token --endpoint --cluster-dns > /var/log/acs/init.log
  • 这里我们看到,attach_node.sh 的参数,与前一节的参数有很大的不同
  • 其实这里的参数,都是前一节 value 的内容,即管控创建并维护的集群基本信息
  • 自动添加已有节点省略了通过 key 获取 value 的过程

集群扩容

  • 集群扩容与以上添加已有节点不同,此功能针对需要新购节点的情形
  • 集群扩容的实现,在添加已有节点的基础上,引入了弹性伸缩 ESS 组件
  • ESS 组件负责从无到有的过程,而剩下的过程与添加已有节点类似
  • 即依靠 ECS userdata 脚本来完成节点准备
  • 下图是管控通过 ESS 从无到有创建 ECS 的过程

自动伸缩

  • 前边三种方式是需要人为干预的伸缩方式,而自动伸缩的本质不同
  • 是它可以在业务需求量增加的时候,自动创建 ECS 实例并加入集群
  • 为了实现自动化,这里引入了另外一个组件 Cluster Autoscaler
  • 集群自动伸缩包括两个独立的过程
  • 其中第一个过程,主要用来配置节点的规格属性,包括设置节点的用户数据
  • 这个用户数据和手动添加已有节点的脚本类似,不同的地方在于,其针对自动伸缩这种场景,增加了一些专门的标记
  • attach_node.sh 脚本会根据这些标记,来设置节点的属性

!/bin/sh

curl http:///public/pkg/run/attach/1.12.6-aliyun.1/attach_node.sh | bash -s -- --openapi-token --ess true --labels k8s.io/cluster-autoscaler=true,workload_type=cpu,k8s.aliyun.com=true
  • 而第二个过程,是实现自动增加节点的关键
  • 这里引入了一个新的组件 Autoscaler,它以 Pod 的形式运行在 K8S 集群中
  • 理论上来说,我们可以把这个组件当做一个控制器
  • 因为它的作用与控制器类似,基本上还是监听 Pod 状态
  • 以便在 Pod 因为节点资源不足而不能被调度的时,去修改 ESS 的伸缩规则来增加新的节点
  • 这里有一个知识点,集群调度器衡量资源是否充足的标准,是“预订率”,而不是“使用率”
  • 这两者的差别,类似酒店房价预订率和实际入住率:
    • 完全有可能有人预订了酒店
    • 但是并没有实际入住
  • 在开启自动伸缩功能的时候,我们需要设置缩容阈值,就是“预订率”的下线
  • 之所以不需要设置扩容阈值。是因为 Autoscaler 扩容集群
  • 依靠的是 Pod 的调度状态:当 Pod 因为节点资源“预订率”太高无法被调度的时候 Autoscaler 就会扩容集群

节点减少原理

  • 与增加节点不同,集群减少节点的操作只有一个移除节点的入口
  • 但对于用不同方法加入的节点,其各自移除方式略有不同
  • 首先,通过添加已有节点加入的节点,需要三步去移除:
    • 管控通过 ECS API 清楚 ECS userdata;
    • 管控通过 K8S API 从集群中删除节点;
    • 管控通过 ECS Invoke-Command 在 ECS 上执行 kubeadm reset 命令清理节点
  • 其次,通过集群扩容加入的节点,则在上边的基础上,增加了断开 ESS 和 ECS 关系的操作,此操作由管控调用 ESS API 完成
  • 最后,经过 Cluster Autoscaler 动态增加的节点,则在集群 CPU 资源“预订率”降低的时候,由 Cluster Autoscaler 自动移除释放
  • 其触发点是 CPU“预订率”,即上图写 Metrics 的原因

总结

  • 总体上来说,K8S 集群节点的增加与减少,主要涉及四个组件,分别是 Cluster
    Autoscaler,ESS,管控以及节点本身(准备或清理)
  • 根据场景不同,我们需要排查不同的组件
    • 其中 Cluster Autoscaler 是一个普通的 Pod,其日志的获取和其他Pod 无异
    • ESS 弹性伸缩有其专门的控制台
    • 我们可以在控制台排查其伸缩配置、伸缩规则等相关子实例日志和状态
    • 而管控的日志,可以通过查看日志功能来查看
  • 最后,对于节点的准备与清理,其实就是排查对应的脚本的执行过程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/458700.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为原生鸿蒙操作系统的发布有何重大意义和影响:

#1024程序员节 | 征文# 一、华为原生鸿蒙操作系统的发布对中国的意义可以从多个层面进行分析: 1. 技术自主创新 鸿蒙操作系统的推出标志着中国在操作系统领域的自主创新能力的提升。过去,中国在高端操作系统方面依赖于外国技术,鸿蒙的发布…

outlook创建新账户时报错2603、2604的解决办法

全新的戴尔笔记本电脑,自带的Win11家庭版,安装ms office 2021也顺利完成。 但是奇怪的是,只有其中一台笔记本电脑,OUTLOOK无法添加新账户。 但是这个账号在WEB端登录正常,由于是新入职的员工,根据以往经验&…

Python小白学习教程从入门到入坑------第十八课 异常模块与包【上】(语法基础)

一、异常 在Python中,异常(Exception)是一种用于处理在程序运行时可能发生的错误情况的机制 异常允许程序在检测到错误时不是简单地崩溃,而是能够优雅地处理这些错误,可能包括记录错误信息、清理资源、或者向用户提…

QT界面开发--我的第一个windows窗体【菜单栏、工具栏、状态栏、铆接部件、文本编辑器、按钮、主界面】

经过前面的铺垫,今天我们就开始我们图形化界面之旅了,我们的第一个窗体主要包括:菜单栏、状态栏、工具栏、铆接部件、还有Qt提供的一些主窗体的API。 第一部分:主界面(QMainWindow) 当创建好项目后,我们直接运行&…

logdata-anomaly-miner:一款安全日志解析与异常检测工具

关于logdata-anomaly-miner logdata-anomaly-miner是一款安全日志解析与异常检测工具,该工具旨在以有限的资源和尽可能低的权限运行分析,以使其适合生产服务器使用。 为了确保 logdata-anomaly-miner的正常运行,推荐安装了python > 3.6的…

Qt 文本文件读写与保存

Qt 文本文件读写与保存 开发工具&#xff1a;VS2013 QT5.8 设计UI界面&#xff0c;如下图所示 sample7_1QFile.h 头文件&#xff1a; #pragma once#include <QtWidgets/QMainWindow> #include "ui_sample7_1QFile.h"class sample7_1QFile : public QMainWin…

中国人寿财险青岛市分公司:保障民生,传递关爱

中国人寿财险青岛市分公司以保障民生为使命&#xff0c;传递关爱与温暖。 在健康险领域&#xff0c;公司为市民提供全面的医疗保障。从重大疾病保险到普通医疗保险&#xff0c;满足不同客户的需求。通过与医疗机构合作&#xff0c;为客户提供便捷的就医服务和理赔服务&#xf…

Linux下的文件IO操作

目录 1.前导 1.1文件知识 1.2对比一下文件操作和重定向 1.2.1输入重定向 1.2.2追加重定向 1.3当前路径 1.4stdin stdout stderr 2.文件操作的系统调用接口 2.1.open()打开文件 2.1.2.flags参数 2.1.3.mode参数 2.1.3 umask()函数 2.2.write()向文件写入 ​编辑 2…

【Kaggle | Pandas】练习1:创造、阅读和写作

文章目录 1. 创建DataFrame2. 创建数据表3. 创建可变Series表4. 读取csv 数据集5. 保存csv 文件 1. 创建DataFrame 在下面的单元格中&#xff0c;创建一个 DataFrame fruits &#xff0c;如下所示&#xff1a; import pandas as pd # Your code goes here. Create a datafr…

Javaee---多线程(一)

文章目录 1.线程的概念2.休眠里面的异常处理3.实现runnable接口4.匿名内部类子类创建线程5.匿名内部类接口创建线程6.基于lambda表达式进行线程创建7.关于Thread的其他的使用方法7.1线程的名字7.2设置为前台线程7.3判断线程是否存活 8.创建线程方法总结9.start方法10.终止&…

Spring《声明式事务》

知识点&#xff1a; Spring 声明式事务 1.基于注解和配置类的Spring-jdbc环境搭建 1. 准备项目&#xff0c;pom.xml <dependencies> <!--spring context依赖--> <!--当你引入Spring Context依赖之后&#xff0c;表示将Spring的基础依赖引入了--> …

七款主流图纸加密软件强力推荐|2024年CAD图纸加密保护指南

在当今信息化的设计行业&#xff0c;保护CAD图纸的知识产权和数据安全变得尤为重要。随着越来越多的企业采用数字化设计和共享文件&#xff0c;如何防止CAD图纸被未经授权的访问和窃取成为了许多设计师和企业关注的焦点。为此&#xff0c;选用合适的图纸加密软件是保护CAD文件安…

《数据结构》学习系列——树(下)

系列文章目录 目录 树和森林的遍历树的遍历森林的遍历基本算法递归先根遍历树迭代先根遍历树树和森林的层次遍历 压缩与哈夫曼树文件编码扩充二叉树哈夫曼树和哈夫曼编码哈夫曼树的基本思路哈夫曼编码 树和森林的遍历 树的遍历 先根遍历&#xff1a;先访问树的根结点&#x…

想作弊❓用这个发起考试,根本没法作弊

&#x1f389; 推荐一款超实用的在线考试神器 —— 土著刷题✨ 如果你正在寻找一个既方便又高效的在线考试平台&#xff0c;那么“土著刷题”小&#x1f34a;序绝对值得一试&#xff01;它不仅完全免费&#xff0c;而且操作简单&#xff0c;非常适合用来组织线上测试。 &#x…

使用Angular构建动态Web应用

&#x1f496; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4bb; Gitee主页&#xff1a;瑕疵的gitee主页 &#x1f680; 文章专栏&#xff1a;《热点资讯》 使用Angular构建动态Web应用 1 引言 2 Angular简介 3 安装Angular 4 创建Angular项目 5 设计应用结构 6 创建组件 7 …

「Java SPI机制应用快速入门」: 一种JDK内置的服务提供发现机制

文章目录 什么是SPISPI机制的应用使用方法使用规范 入门案例 什么是SPI SPI首先是一种机制&#xff0c;这个机制叫&#xff1a;服务提供发现机制。那是谁来负责发现呢&#xff1f;当然是JDK内置的服务帮助我们发现啦。发现了帮助我们去调用&#xff0c;我们要做的就是在中间去…

2024护理类科技核心期刊汇总(最新版)

2024年9月中国科技核心期刊目录&#xff08;2024年版&#xff09;正式公布&#xff0c;13本护理类期刊入选。常笑医学整理了这13本护理类科技核心期刊的详细参数&#xff0c;以及投稿经验&#xff0c;供大家在论文投稿时参考&#xff0c;有需要的赶紧收藏&#xff01; 1.《中华…

SwiftUI(四)- 布局(VStack、HStack、ZStack)

引言 页面的搭建和布局在应用开发中几乎占据了一半的代码量。定于iOS开发而言&#xff0c;相较于其它平台&#xff0c;UIKit的布局方式显得相对局限&#xff0c;通常只有绝对布局和相对布局两种方案。而在Flutter或者Android开发中&#xff0c;布局选项更为丰富&#xff0c;比…

【mod分享】极品飞车9冬日mod,支持光追,想体验一把冬天的Rockport市吗

各位好&#xff0c;今天小编给大家带来一款新的高清重置魔改MOD&#xff0c;本次高清重置的游戏叫《极品飞车9最高通缉》。 《极品飞车&#xff1a;最高通缉》作为一款2005年的游戏&#xff0c;《极品飞车&#xff1a;最高通缉》的画面效果还是可以的&#xff0c;效果全开之后…

【状态机DP】力扣1186. 删除一次得到子数组最大和

给你一个整数数组&#xff0c;返回它的某个 非空 子数组&#xff08;连续元素&#xff09;在执行一次可选的删除操作后&#xff0c;所能得到的最大元素总和。换句话说&#xff0c;你可以从原数组中选出一个子数组&#xff0c;并可以决定要不要从中删除一个元素&#xff08;只能…