【GitOps系列】如何实施自动化渐进式交付?

文章目录

      • 前言
      • 自动渐进式交付概述
      • 自动渐进式交付准备
        • 创建生产环境
        • 创建 AnalysisTemplate
        • 访问生产环境
        • 安装Prometheus
        • 配置 Ingress-Nginx 和 ServiceMonitor
        • 验证 Ingress-Nginx 指标
      • 自动渐进式交付实战
        • 自动渐进式交付成功
        • 自动渐进式交付失败
      • 结语

前言

在实施金丝雀发布的过程中,我们通过 Argo Rollout 的金丝雀策略将发布过程分成了 3 个阶段,每个阶段金丝雀的流量比例都不同,经过一段时间之后,金丝雀环境变成了新的生产环境。实际上,这也是一种渐进式的交付方式,它通过延长发布时间来保护生产环境,降低了发生生产事故的概率。
不过,这种渐进式的交付方式存在一个明显的缺点:无法自动判断金丝雀环境是否出错?
这可能会导致一种情况,当金丝雀环境在接收生产流量之后,它产生了大量的请求错误,在缺少人工介入的情况下,发布仍然按照计划进行,最终导致生产环境故障。
为了解决这个问题,我们希望渐进式交付变得更加智能,一个好的工程实践方式是: 通过指标分析来自动判断金丝雀发布的质量,如果符合预期,就继续金丝雀步骤;如果不符合预期,则进行回滚。 这样,也就能够避免将金丝雀环境的故障带到生产环境中了,这种分析方法也称之为金丝雀分析

自动渐进式交付概述

在这里插入图片描述

相比较金丝雀发布,自动渐进式交付增加了 Prometheus、Analysis Template 和 AnalysisRun 对象。其中,Analysis Template 定义用于分析的模板,AnalysisRun 是分析模板的实例化,Prometheus 是用来存储指标的数据库。

自动渐进式交付流程图:
在这里插入图片描述

自动渐进式交付开始时,首先会先将金丝雀环境的流量比例设置为20%并持续两分钟,然后将金丝雀环境的流量比例设置为40%并持续两分钟,然后再以此类推到 60%、80%,直到将金丝雀环境提升为生产环境为止。

从第二个阶段开始,自动金丝雀分析开始运行,在持续运行的过程中,如果金丝雀分析失败,那么金丝雀环境将进行自动回滚。这样就达到了自动渐进式交付的目的。

自动渐进式交付准备

创建生产环境

创建用于模拟生产环境的 Rollout 对象、Service 和 Ingress.

cat rollout-with-analysis.yaml 
apiVersion: argoproj.io/v1alpha1
kind: Rollout
metadata:name: canary-demo
spec:replicas: 1selector:matchLabels:app: canary-demostrategy:canary:analysis:templates:- templateName: success-ratestartingStep: 2args:- name: traefikvalue: traefik-service#- name: ingress#  value: canary-democanaryService: canary-demo-canarystableService: canary-demotrafficRouting:traefik:weightedTraefikServiceName: traefik-service#nginx:#  stableIngress: canary-demosteps:- setWeight: 20- pause:duration: 2m- setWeight: 40- pause:duration: 2m- setWeight: 60- pause:duration: 2m- setWeight: 80- pause:duration: 2mtemplate:metadata:labels:app: canary-demospec:containers:- image: argoproj/rollouts-demo:blueimagePullPolicy: Alwaysname: canary-demoports:- containerPort: 8080name: httpprotocol: TCPresources:requests:cpu: 5mmemory: 32Mi

对比金丝雀发布的 Rollout 对象并没有太大差异,只是在 canary 字段下面增加了analysis字段,它的作用是指定金丝雀分析的模板,模板内容需单独创建。另外,这里同样使用了argoproj/rollouts-demo:blue镜像来模拟生产环境。

#创建生产环境和金丝雀环境所需要用到的 Service
cat canary-demo-service-v2.yaml 
apiVersion: v1
kind: Service
metadata:name: canary-demolabels:app: canary-demo
spec:ports:- port: 80targetPort: httpprotocol: TCPname: httpselector:app: canary-demo
---
apiVersion: v1
kind: Service
metadata:name: canary-demo-canarylabels:app: canary-demo
spec:ports:- port: 80targetPort: httpprotocol: TCPname: httpselector:app: canary-demo$ kubectl apply -f canary-demo-service-v2.yaml#创建ingress
cat canary-demo-ingress-v2.yaml 
apiVersion: traefik.containo.us/v1alpha1
kind: IngressRoute
metadata:name: canary-demolabels:app: canary-demo
spec:entryPoints:- webroutes:- match: Host(`progressive.auto`) && PathPrefix(`/`)kind: Ruleservices:- name: canary-demoport: http

创建 AnalysisTemplate

$ cat analysis-success.yaml 
apiVersion: argoproj.io/v1alpha1
kind: AnalysisTemplate
metadata:name: success-rate
spec:args:- name: traefikmetrics:- name: success-rateinterval: 10sfailureLimit: 3successCondition: result[0] > 0.90provider:prometheus:address: http://prometheus-kube-prometheus-prometheus.prometheus:9090query: >+sum(rate(traefik_service_requests_total{traefik="{{args.traefik}}",status!~"[4-5].*"}[60s]))/sum(rate(traefik_service_requests_total{traefik="{{args.traefik}}"}[60s]))

介绍一下 AnalysisTemplate 对象字段的含义:
首先spec.args字段定义了参数,该参数会在后续的 query 语句中使用,它的值是从 Rollout 对象的 canary.analysis.args 字段传递进来的。
spec.metrics 字段定义了自动分析的相关配置。其中,interval 字段为频率,每 10 秒钟执行一次分析。failureLimit 字段代表“连续 3 次失败则金丝雀分析失败”,此时要执行回滚动作。successCondition 字段代表判断条件,这里的 result[0] 是一个表达式,代表的含义是当查询语句的返回值大于 0.90 时,说明本次金丝雀分析成功了。
spec.metrics.provider 字段定义了分析数据来源于 Prometheus,还定义了 Prometheus Server 的连接地址
query 字段是金丝雀分析的查询语句。这条查询语句的含义简单理解为:在 60 秒内 HTTP 状态码不为 4xx 和 5xx 的请求占所有请求的比例。换句话说,当 HTTP 请求成功的比例大于 0.90 时,代表一次金丝雀分析成功。

访问生产环境

http://progressive.auto/
在这里插入图片描述

安装Prometheus

由于金丝雀分析需要用到 Prometheus 来查询指标,可以通过helm安装或者用自己本地环境的Prometheus也可以。

$ helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
$ helm upgrade prometheus prometheus-community/kube-prometheus-stack \
--namespace prometheus  --create-namespace --install \
--set prometheus.prometheusSpec.podMonitorSelectorNilUsesHelmValues=false \
--set prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=falseRelease "prometheus" does not exist. Installing it now.
......
STATUS: deployed--set 对安装参数进行了配置,这是为了让它后续能够顺利获取到 Ingress-Nginx 的监控指标

配置 Ingress-Nginx 和 ServiceMonitor

为了让 Prometheus 能够顺利地获取到 HTTP 请求指标,我们需要打开 Ingress-Nginx Metric 指标端口。

$ kubectl patch deployment ingress-nginx-controller -n ingress-nginx --type='json' -p='[{"op": "add", "path": "/spec/template/spec/containers/0/ports/-", "value": {"name": "prometheus","containerPort":10254}}]'
deployment.apps/ingress-nginx-controller patched然后,为 Ingrss-Nginx Service 添加指标端口。
$ kubectl patch service ingress-nginx-controller -n ingress-nginx --type='json' -p='[{"op": "add", "path": "/spec/ports/-", "value": {"name": "prometheus","port":10254,"targetPort":"prometheus"}}]'
service/ingress-nginx-controller patched用Traefik的话开启metrics即可- containerPort: 9101hostPort: 9101name: metrics

创建 ServiceMonitor 对象,它可以为 Prometheus 配置指标获取的策略

apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:name: nginx-ingress-controller-metricsnamespace: prometheuslabels:app: nginx-ingressrelease: prometheus-operator
spec:endpoints:- interval: 10sport: prometheusselector:matchLabels:app.kubernetes.io/instance: ingress-nginxapp.kubernetes.io/name: ingress-nginxnamespaceSelector:matchNames:- ingress-nginx如果你使用的是Traefik,可以用以下配置:
cat servicemonitor.yaml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:name: traefik-ingress-controllernamespace: kubesphere-monitoring-systemlabels:app: traefik
spec:endpoints:- interval: 10sport: metricsselector:matchLabels:app: traefiknamespaceSelector:matchNames:- traefik

在这里插入图片描述

验证 Ingress-Nginx 指标

测试Prometheus 是否已经成功获取到了 Ingress-Nginx 指标,这将决定自动金丝雀分析是否能成功获取到数据,博主此处用的是Traefik
在这里插入图片描述

自动渐进式交付实战

在这里插入图片描述
此次实战过程中,会按照这张流程图分别进行两个实验。

  • 自动渐进式交付成功(图中①号链路)
  • 自动渐进式交付失败(图中②号链路)

自动渐进式交付成功

验证的话只要更新 Rollout 对象的镜像版本即可。两种方式,第一直接编辑 Rollout 对象并通过 kubectl apply 的方法来更新镜像版本。第二种通过Argo Rollout kubectl插件来更新镜像。

kubectl argo rollouts set image canary-demo canary-demo=argoproj/rollouts-demo:green
rollout "canary-demo" image updated

过一会儿看到绿色方块开始出现,流量占比约为 20%,如下图所示:
在这里插入图片描述
也可以打开Argo Rollout 控制台观察自动渐进式交付过程。可以看到目前处在 20% 金丝雀流量的下一阶段,也就是暂停 2 分钟的阶段。
在这里插入图片描述
2 分钟后,将进入到 40% 金丝雀流量阶段,从这个阶段开始,自动金丝雀分析开始工作,直到最后金丝雀发布完成,金丝雀环境提升为了生产环境,这时自动分析也完成了.

自动渐进式交付失败

上述演示中,由于应用返回的 HTTP 状态码都是 200 ,所以金丝雀分析自然是会成功的。
接下来,我们来尝试进行自动渐进式交付失败的实验。
经过了自动渐进式交付成功的实验之后,当前生产环境中的镜像为 argoproj/rollouts-demo:green,我们继续使用Argo Rollout kubectl插件来更新镜像,并将镜像版本修改为yellow版本。

kubectl argo rollouts set image canary-demo canary-demo=argoproj/rollouts-demo:yellow
rollout "canary-demo" image updated

在这里插入图片描述

接下来,我们让应用返回错误的 HTTP 状态码。你可以滑动界面上的 ERROR 滑动块,将错误率设置为 50%
在这里插入图片描述
现在,你会在黄色方块中看到带有红色描边的方块,这代表本次请求返回的 HTTP 状态码不等于 200,说明 我们成功控制了一部分请求返回错误。
2 分钟后,金丝雀发布会进入到 40% 流量的阶段,此时自动分析将开始进行。可以通过 Argo Rollout 控制台实时观察。

等待一段时间后,金丝雀分析将失败,是预期内的!
此时,Argo Rollout 将执行自动回滚操作,这时候重新返回http://progressive.auto打开应用,你会看到黄色方块的流量消失,所有请求被绿色方块取代,说明已经完成回滚了,如下图所示:
在这里插入图片描述
到这里,一次完整的渐进式交付失败实验就完成了。

结语

跟之前金丝雀发布不同的是:渐进式交付在金丝雀发布的过程中加入了自动金丝雀分析,它可以验证新版本在生产环境中的表现,而这是单纯的金丝雀发布所无法实现的。借助渐进式交付,我们可以在发布过程通过指标实时分析金丝雀环境,兼顾发布的安全性和效率。

值得注意的是,为了能够查询到示例应用的 HTTP 指标,开启了 Ingress-Nginx/Traefik-controller的指标开关,这样所有经过 Ingress-Nginx 的流量都会被记录下来,结合Prometheus ServiceMonitor实现了 HTTP 请求指标的采集。

此外,为了让 ArgoCD 在渐进式交付时顺利运行金丝雀分析,我们还需要创建AnalysisTemplate对象,它实际上是 PromQL 编写的查询语句,ArgoCD 在交付过程中会用这条语句去 Prometheus 查询,并将返回的结果和预定义的阈值进行对比,以此控制渐进式交付应该继续进行还是回滚。

在实际的业务场景中,如果希望验证多个维度的指标,你可以创建多个AnalysisTemplate并将它配置到 Rollout 对象中,进一步提高分析的可靠性。另外,还可以在金丝雀发布的steps阶段里配置“内联”的分析步骤,比如在金丝雀环境 20% 和 40% 流量阶段的下一阶段分别运行不同的金丝雀分析,具体参考 https://argoproj.github.io/argo-rollouts/features/analysis/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/80444.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

无涯教程-Perl - References(引用)

Perl引用是一个标量数据类型,该数据类型保存另一个值的位置,该值可以是标量,数组或哈希。 创建引用 变量,子程序或值创建引用很容易,方法是在其前面加上反斜杠,如下所示: $scalarref \$foo; $arrayref …

Linux下的环境变量

目录 一、环境变量是什么?二、常见的环境变量三、查看环境变量的方法四、和环境变量相关的命令五、命令行参数五、环境变量通常是具有全局属性的 一、环境变量是什么? 环境变量通俗来说就是一种存储系统和应用程序运行需要的配置信息的方式。可以把环境…

OPENCV C++(四)形态学操作+连通域统计

形态学操作 先得到一个卷积核 Mat kernel getStructuringElement(MORPH_RECT,Size(5,5)); 第一个是形状 第二个是卷积核大小 依次为腐蚀 膨胀 开运算 闭运算 Mat erodemat,dilatemat,openmat,closemat;morphologyEx(result1, erodemat, MORPH_ERODE, kernel);morphologyEx…

计算机网络(4) --- 协议定制

计算机网络(3) --- 网络套接字TCP_哈里沃克的博客-CSDN博客https://blog.csdn.net/m0_63488627/article/details/132035757?spm1001.2014.3001.5501 目录 1. 协议的基础知识 TCP协议通讯流程 ​编辑 2.协议 1.介绍 2.手写协议 1.内容 2.接口 …

MVC配置原理

如果你想保存springboot的mvc配置并且还想自己添加自己的配置就用这个。 视图解析器原理,它会从IOC容器里获取配置好视图解析器的配置类里的视图解析器集合, 然后遍历集合,生成一个一个的视图对象,放入候选 视图里,…

Spark、RDD、Hive 、Hadoop-Hive 和传统关系型数据库区别

Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 (没有充分利用内存)接口比较简单,仅支持Map Reduce功能…

微信云开发-数据库操作

文章目录 前提初始化数据库插入数据查询数据获取一条数据获取多条数据查询指令 更新数据更新指令 删除数据总结 前提 首先有1个集合(名称:todos). 其中集合中的数据为: {// 计划描述"description": "learn mini-program cloud service",// 截止日期"…

【Linux】操作系统与冯诺依曼体系——深度解析(软硬件层面)

​ 前言 大家好吖,欢迎来到 YY 滴 Linux系列 ,热烈欢迎! 本章主要内容面向接触过Linux的老铁,从软硬件层面向大家介绍操作系统与冯诺依曼体系, 主要内容含: 欢迎订阅 YY滴Linux专栏!更多干货持…

学习笔记|简单分享一下自建Gravatar镜像

目录 前言 Gravatar 使用 思路 操作 步骤一:注册或登录华为云 步骤二:创建委托账号 步骤三:创建OBS桶 步骤四:数据回源配置 步骤五:配置生命周期规则 步骤六:绑定自定义域名 步骤七&#xff1a…

吉利科技携手企企通,打造集团化数智供应链系统

近日,吉利科技集团有限公司(以下简称“吉利科技”)联合企企通成功召开SRM采购供应链管理项目启动会。企企通与吉利科技高层、项目负责人与团队成员出席此次启动会。 双方将携手在企业供应商全生命周期管理、采购全流程、电子招投标、采购分析…

【LeetCode 75】第二十三题(2352)相等行列对

目录 题目: 示例: 分析: 代码运行结果: 题目: 示例: 分析: 题目很简洁,就是要我们寻找行与列相同的对数。相同行与列不仅是要元素相同,还需要顺序也一样&#xff08…

MySQL面试1

Mysql的面试突击1 Mysql的体系结构是什么样子的(查询语句怎么进行执行的) mysql的架构:单进程多线程的架构模式 CLient -----> Server架构 Mysql的链接方式有没有性能优化的点 2个点 查询缓存(Query Cache) MySQL 内部自带了一个缓存模…

mysql转sqlite3

在项目中需要将mysql迁移到sqlite3中,此时需要作数据转换 准备工作 下载mysql2sqlite转换工具 https://github.com/dumblob/mysql2sqlite/archive/refs/heads/master.zip 下载sqlite3 https://www.sqlite.org/download.html 转换 命令行中输入如下命令 1、cd …

计算机网络(5) --- http协议

计算机网络(4) --- 协议定制_哈里沃克的博客-CSDN博客协议定制https://blog.csdn.net/m0_63488627/article/details/132070683?spm1001.2014.3001.5501 目录 1.http协议介绍 1.协议的延申 2.http协议介绍 3.URL 4.urlencode和urldecode 2.HTTP协…

NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 论文阅读

论文信息 题目:NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 作者:Antoni Rosinol, John J. Leonard, Luca Carlone 代码:https://github.com/ToniRV/NeRF-SLAM 来源:arxiv 时间&#xff…

Java课设--学生信息管理系统(例2)

文章目录 前提一、运行效果二、代码获取 前言 首先确定自己的JDBC连接数据库已经完成,不懂可以看看其他博主的解析。 我使用的是SQL Server数据库,数据库名称为stu,账号为sa,密码为123456 数据库的表为student表,内容如下: 一、…

第一百二十三天学习记录:C++提高:STL-vector容器(下)(黑马教学视频)

vector插入和删除 功能描述: 对vector容器进行插入、删除操作 函数原型: push_back(ele); //尾部插入元素ele pop_back(); //删除最后一个元素 insert(const_iterator pos, ele); //迭代器指向位置pos插入元素ele insert(const_iterator pos, int cou…

MySQL数据库安装(二)

夕阳留恋的不是黄昏,而是朝阳 上一章简单介绍了MySQL数据库概述(一), 如果没有看过, 请观看上一章 一. MySQL 卸载 一.一 停止MySQL服务 在卸载之前,先停止MySQL8.0的服务。按键盘上的“Ctrl Alt Delete”组合键,打开“任务管理器”对话…

我设置了IIS的默认文档为什么还是提示403 - 禁止访问: 访问被拒绝。

我设置了IIS的默认文档为什么还是提示403 - 禁止访问: 访问被拒绝。 这个问题我是在处理dedeCMS站点时发现的问题 解决方法: 打开IIS》应用程序池》(找到你的站点应用池)》右键》基本设置》版本:选择2.0》管道:选择“…

75. 颜色分类

题目链接:力扣 解题思路:因为整个nums数组中只有0,1,2三个数组成。对nums升序排序后,0一定都在数组的最左边,2一定都在数组的最右边,1在数组的中间。那么只需要将0移动到数组的左边,…