K8s+Nacos实现应用的优雅上下线【生产实践】

`

文章目录

  • 前言
  • 一、环境描述
  • 二、模拟请求报错
  • 三、配置优雅上下线
    • 1.修改nacos配置
    • 2.修改depolyment配置
    • 3.重新apply deployment后测试
    • 4.整体(下单)测试流程验证是否生效
  • 四、期间遇到的问题


前言

我们在使用k8s部署应用的时候,虽然k8s是使用滚动升级的,先启动一个新Pod 等这个新Pod运行成功后,再干掉旧Pod;在这个过程中Pod会一直接收请求的,如果在Pod被干掉的那一刻正好有一部分请求打进来了,那么Pod被杀死了,就不会给这个请求返回结果,就会导致客户端出现请求500错误,这样就做不到平滑升级了,我们要做的就是在Pod升级的时候不能或者尽量避免这种情况;

我们公司使用的是java,中间件用的是nacos,应用在启动时会注册到nacos,然后走应用之间的内部调用,服务会不间断的向注册中心nacos发送自己的心跳(3s) 以及在每个 Pod 服务里本地也有一份缓存映射表(也有一个窗口时间更新30s),服务在停止的时候,自然也会在nacos中进行下线 但是如果有请求在应用下线的这个窗口期发起的话,就会出现K8s Pod 服务已下线,但是 Nacos 在窗口期之内注册列表未更新,导致请求达到一个根本不存在的旧服务里导致请求返回404或者旧请求已经打到旧服务里,但是高峰期时,程序处理较慢,还没来及返回响应体,服务就被关闭了返回500;

我们使用的解决方案是,在应用下线的第一时间(Pod被删除)先进行在nacos的下线操作不让其接受新的请求,然后等待Pod已接收的请求处理完成后 再进行删除Pod;
这里会使用到的知识以及需要自身考虑的点有:

  • k8s的prestop钩子(容器关闭前执行操作)
  • 需要判断自己应用处理的请求的时间(基本上30s内都能处理完成 如果不放心的话调整成50s 但是这样的话也会相应的增加上线时长,需要注意)
  • 需要在nacos(v2.x)中配置Nacos自动清理过期服务的过期时间(删除服务的元数据信息),防止请求过多/代码问题导致Pod的cpu打满 触发Pod的健康检查后 Pod重启以后依然是下线状态(不可用) 这样就出大问题了;
    在这里插入图片描述

一、环境描述

名称版本部署方式
kubernetesv1.20.11二进制
nacosv2.0.3集群模式

二、模拟请求报错

模拟请求报错就是不加任何配置直接使用测试脚本(这里用的是jmeter)不间断的去调用我们的应用,然后发布我们的新应用会有失败的请求

##现在的deployment文件为如下##
apiVersion: apps/v1
kind: Deployment
metadata:namespace: data-centername: energy-order-apilabels:app: energy-order-api
spec:replicas: 3selector:matchLabels:app: energy-order-apitemplate:metadata:labels:app: energy-order-apispec:imagePullSecrets:- name: harbor-secretcontainers:- name: energy-order-apiimage: registry.xxxx/hqt-registry-pro/energy-order-api:P-1391-2023xxxx-15.47.45imagePullPolicy: IfNotPresentcommand: ["/bin/sh"]args: ["-c","java -jar -Xmx2688m -Xms2688m -Xmn961m -XX:MaxMetaspaceSize=512m -XX:MetaspaceSize=512m -Xloggc:/logs/gc-%t.log -XX:+HeapDumpOnOutOfMemoryError  -XX:HeapDumpPath=/data/logs/heapdump_$MY_POD_NAME.hprof-XX:+PrintGCDetails -XX:+UnlockExperimentalVMOptions -XX:+UseCGroupMemoryLimitForHeap -XX:NativeMemoryTracking=detail -javaagent:/data/skywalking/skywalking-agent.jar=agent.service_name=energy-order-api,agent.instance_name=$MY_POD_NAME,collector.backend_service=internal-skywalking.xxxx.xxm:11800 -Dapollo.meta=http://apollo-configservice.infrastructure.svc.cluster.local:8080 -Denv=pro /data/app.jar;/sbin/tini -s"]env:#获取pod实例名称,因为一个pod可能会有多个副本,所以需要根据名称来进行区分;- name: MY_POD_NAMEvalueFrom:fieldRef:fieldPath: metadata.nameresources:requests:memory: "4Gi"cpu: "2000m"limits:memory: "4Gi"cpu: "2000m"volumeMounts:- name: energy-order-api-logsmountPath: /data/logssubPathExpr: $(MY_POD_NAME)ports:- containerPort: 80livenessProbe:httpGet:path: /actuator/infoport: 80initialDelaySeconds: 70 #pod启动多长时间后开始去探测;periodSeconds: 5 #每隔多长时间去探测一次;failureThreshold: 6readinessProbe:httpGet:path: /actuator/infoport: 80initialDelaySeconds: 70periodSeconds: 5failureThreshold: 6affinity:#节点亲和性nodeAffinity:#硬策略requiredDuringSchedulingIgnoredDuringExecution:nodeSelectorTerms:- matchExpressions:#标签键- key: ResourcePooloperator: In#标签值values:- core#pod反亲和性配置podAntiAffinity:requiredDuringSchedulingIgnoredDuringExecution:- labelSelector:matchExpressions:- key: appoperator: Invalues:- energy-order-apitopologyKey: kubernetes.io/hostname        volumes:- name: energy-order-api-logspersistentVolumeClaim:claimName: energy-order-api-logs---
kind: PersistentVolumeClaim
apiVersion: v1
metadata:name: energy-order-api-logsnamespace: data-center
spec:accessModes:- ReadWriteManystorageClassName: alicloud-nas-subpathresources:requests:storage: 1Gi

Pod启动成功如下:
在这里插入图片描述

在这里插入图片描述
设置30个线程开始去请求我们服务的接口
可以看到目前的请求都是成功的,此时我们修改镜像apply可以模拟下我们的服务发布,当新Pod启动后 删除旧Pod时注意观察请求是否有报错!

在这里插入图片描述

在这里插入图片描述
可以发现在删除pod时的这个动作会出现错误请求,随后就会正常
在这里插入图片描述
以上就是发版(新Pod替换旧Pod)的过程中会出现的问题;

三、配置优雅上下线

1.修改nacos配置

[root@iZbp1iz5ayf044rk5cqq26Z ~]# vim /hqtbj/hqtwww/nacos_workspace/conf/application.properties
#打开注释并修改
### The interval to clean expired metadata, unit: milliseconds.
nacos.naming.clean.expired-metadata.interval=5000
### The expired time to clean metadata, unit: milliseconds.
nacos.naming.clean.expired-metadata.expired-time=5000

保存后重启nacos

2.修改depolyment配置

需要添加k8s的prestop钩子,以及设置强制关闭pod的时间要比sleep的时间长
'curl -X PUT "http://my-nacos.xxx.com/nacos/v1/ns/instance?serviceName=服务名称&ip=服务IP&port=服务端口&weight=0" && sleep 30 && PID= && kill -SIGTERM $PID && while ps -p $PID > /dev/null; do sleep 1; done'
terminationGracePeriodSeconds: 40
如上命令的作用:

  1. 使用curl将注册到nacos的实例权重设置为0,设置为0后就不会再接受请求了,也可以调用nacos的下线接口,只需要将weight=0改为enabled=false即可;
  2. 不接受请求后sleep睡眠30秒 用于处理已经发送过来的请求;
  3. 然后再kill -SIGTERM进行优雅的关闭服务;
  4. 等待Pod中的服务完全停止,如果在 terminationGracePeriodSeconds 40s内 (默认 30s) 还未完全停止,就发送 SIGKILL 信号强制杀死进程(kill -9)。
#添加prestop钩子
lifecycle:preStop:exec:command: ["/bin/sh","-c",'curl -X PUT "http://my-nacos.xxx.com/nacos/v1/ns/instance?serviceName=energy-order-api&ip=${POD_IP}&port=80&weight=0" && sleep 30 && PID=`pidof java` && kill -SIGTERM $PID && while ps -p $PID > /dev/null; do sleep 1; done']  
#设置强制杀死Pod(kill -9)的时间,默认为30s   
terminationGracePeriodSeconds: 40

完整deployment内容如下

---
apiVersion: apps/v1
kind: Deployment
metadata:namespace: data-centername: energy-order-apilabels:app: energy-order-api
spec:replicas: 3selector:matchLabels:app: energy-order-apitemplate:metadata:labels:app: energy-order-apispec:imagePullSecrets:- name: harbor-secretcontainers:- name: energy-order-apiimage: registry.xxxx/hqt-registry-pro/energy-order-api:P-1391-2023xxxx-15.47.45imagePullPolicy: IfNotPresentcommand: ["/bin/sh"]args: ["-c","java -jar -Xmx2688m -Xms2688m -Xmn961m -XX:MaxMetaspaceSize=512m -XX:MetaspaceSize=512m -Xloggc:/logs/gc-%t.log -XX:+HeapDumpOnOutOfMemoryError  -XX:HeapDumpPath=/data/logs/heapdump_$MY_POD_NAME.hprof-XX:+PrintGCDetails -XX:+UnlockExperimentalVMOptions -XX:+UseCGroupMemoryLimitForHeap -XX:NativeMemoryTracking=detail -javaagent:/data/skywalking/skywalking-agent.jar=agent.service_name=energy-order-api,agent.instance_name=$MY_POD_NAME,collector.backend_service=internal-skywalking.xxxx.xxm:11800 -Dapollo.meta=http://apollo-configservice.infrastructure.svc.cluster.local:8080 -Denv=pro /data/app.jar;/sbin/tini -s"]env:#获取pod实例名称,因为一个pod可能会有多个副本,所以需要根据名称来进行区分;- name: MY_POD_NAMEvalueFrom:fieldRef:fieldPath: metadata.nameresources:requests:memory: "4Gi"cpu: "2000m"limits:memory: "4Gi"cpu: "2000m"volumeMounts:- name: energy-order-api-logsmountPath: /data/logssubPathExpr: $(MY_POD_NAME)ports:- containerPort: 80lifecycle:preStop:exec:command: ["/bin/sh","-c",'curl -X PUT "http://nacos.wonxxxnk.cc/nacos/v1/ns/instance?serviceName=energy-order-api&ip=${POD_IP}&port=80&weight=0" && sleep 30 && PID=`pidof java` && kill -SIGTERM $PID && while ps -p $PID > /dev/null; do sleep 1; done']terminationGracePeriodSeconds: 40livenessProbe:httpGet:path: /actuator/infoport: 80initialDelaySeconds: 70 #pod启动多长时间后开始去探测;periodSeconds: 5 #每隔多长时间去探测一次;failureThreshold: 6readinessProbe:httpGet:path: /actuator/infoport: 80initialDelaySeconds: 70periodSeconds: 5failureThreshold: 6affinity:#节点亲和性nodeAffinity:#硬策略requiredDuringSchedulingIgnoredDuringExecution:nodeSelectorTerms:- matchExpressions:#标签键- key: ResourcePooloperator: In#标签值values:- core#pod反亲和性配置podAntiAffinity:requiredDuringSchedulingIgnoredDuringExecution:- labelSelector:matchExpressions:- key: appoperator: Invalues:- energy-order-apitopologyKey: kubernetes.io/hostname        volumes:- name: energy-order-api-logspersistentVolumeClaim:claimName: energy-order-api-logs---
kind: PersistentVolumeClaim
apiVersion: v1
metadata:name: energy-order-api-logsnamespace: data-center
spec:accessModes:- ReadWriteManystorageClassName: alicloud-nas-subpathresources:requests:storage: 1Gi

3.重新apply deployment后测试

在这里插入图片描述
在这里插入图片描述
如上,现在Pod已经启动成功并且在nacos中也是可用状态

开始测试
在这里插入图片描述
如上当开始停止旧pod时, 会先调用我们配置的prestop钩子 如下 先把nacos中旧pod的权重改为0 不让其接受请求,然后再处理已接受的请求最后彻底关闭pod

在这里插入图片描述
可以看到整个流程下来是没有发现有请求失败的!
在这里插入图片描述

这是单对这一个order服务进行的测试,接下来需要走一遍整体下单的流程,调用多个服务进行测试的同时重新发布这个order服务看是否有失败的请求

4.整体(下单)测试流程验证是否生效

已启动的pod以及nacos状态如下:
在这里插入图片描述
在这里插入图片描述
开始测试
在这里插入图片描述
在这里插入图片描述
如上可以发现在停止Pod时,跟上面的结果是一样的,都是先把nacos中旧pod的权重改为0,然后等待处理请求再彻底关闭pod;

如下测试,整体一个下单流程再发布期间也是不回受到影响的,无报错
在这里插入图片描述

四、期间遇到的问题

如果不配置nacos清理元数据信息的话,会导致当cpu/内存使用超过限制而导致健康检查重启时(Pod实例自身重启而不是会起一个新pod),会出现即使pod重启完nacos里注册的服务权重是0/下线,导致服务直接不可用,只能手动再去启用!!所以下面在nacos的配置一定要进行使用!
在这里插入图片描述

如下:
服务因健康检查失败开始重启

在这里插入图片描述
在这里插入图片描述
此时的请求开始报错
在这里插入图片描述
服务的权重变为0,不接收请求
在这里插入图片描述
pod重启完成
在这里插入图片描述
发现nacos里注册的服务权重依然为0,并没进行接收请求
在这里插入图片描述
请求依旧报错
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/286574.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【CXL协议-事务层之CXL.cache (3)】

3.2 CXL.cache 3.2.1 概述 CXL.cache 协议将设备和主机之间的交互定义为许多请求,每个请求至少有一个关联的响应消息,有时还有数据传输。 该接口由每个方向的三个通道组成: 请求、响应和数据。 这些通道根据其方向命名,D2H&…

【笔记】深入理解JVM机制

🎥 个人主页:Dikz12📕格言:吾愚多不敏,而愿加学欢迎大家👍点赞✍评论⭐收藏 目录 JVM 运⾏流程图 JVM 中内存区域划分 方法区 / 元数据区 堆 栈 程序计数器 本地方法栈 内存区域总结 JVM 中类加载过程 …

Go第三方框架--gin框架(一)

序言 Gin框架作为go语言使用最多的web框架,以其快速的响应速度和对复杂http路由配置的支持受到程序员和媛们的喜爱,几乎统治了web市场。但作为一名合格的程序员,要知其然更要知其所以然,不然八股文背的也没有啥意思。本着这个原则…

【Java程序设计】【C00368】基于(JavaWeb)Springboot的箱包存储系统(有论文)

TOC 博主介绍:java高级开发,从事互联网行业六年,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,博客中有上百套程序可供参考,欢迎共同交流学习。 项目简介 项目获取 🍅文末点击卡片…

【MySQL数据库】数据类型和简单的增删改查

目录 数据库 MySQL的常用数据类型 1.数值类型: 2.字符串类型 3.日期类型 MySQL简单的增删改查 1.插入数据: 2.查询数据: 3.修改语句: 4.删除语句: 数据库 平时我们使用的操作系统都把数据存储在文件中&#…

3.3 数据定义 数据库与系统概论

目录 3.3.1 模式的定义与删除 1. 定义模式 2. 删除模式 CASCADE(级联) RESTRICT(限制) 3.3.2 基本表的定义、删除与修改 表的定义 2.数据类型 3. 模式与表 4. 修改基本表 5. 删除基本表 3.3.3 索引的建立与删除 1. …

如何备考2024年AMC10:吃透2000-2023年1250道真题(限时免费送)

我们今天继续来随机看5道AMC10真题,以及详细解析,这些题目来自1250道完整的官方历年AMC10真题库。通过系统研究和吃透AMC10的历年真题,参加AMC10的竞赛就能拿到好名次。即使不参加AMC10竞赛,掌握了这些知识和解题思路后初中和高中…

2015年认证杯SPSSPRO杯数学建模C题(第一阶段)荒漠区动植物关系的研究全过程文档及程序

2015年认证杯SPSSPRO杯数学建模 C题 荒漠区动植物关系的研究 原题再现: 环境与发展是当今世界所普遍关注的重大问题, 随着全球与区域经济的迅猛发展, 人类也正以前所未有的规模和强度影响着环境、改变着环境, 使全球的生命支持系统受到了严重创伤, 出现了全球变暖…

Flutter 旋转动画 线性变化的旋转动画

直接上代码 图片自己添加一张就好了 import dart:math;import package:flutter/material.dart;import package:flutter/animation.dart;void main() > runApp(MyApp()); //旋转动画 class MyApp extends StatelessWidget {overrideWidget build(BuildContext context) {re…

RMAN 备份恢复、删除归档

RMAN冷备全库 rman target / list backup shutdown immediate startup mount #不要自动备份control file set nocfau; #注意要先备份数据库,然后备份控制文件,因为数据库的备份位置记录在控制文件中。 #备份数据库 backup database format /mnt/disk01/r…

vue 中实现下载后端返回的流式数据

验证是否是blob /*** Event 验证是否为blob格式* */export async function blobValidate(data) {try {const text await data.text();JSON.parse(text);return false;} catch (error) {return true;}}get请求 /*** Event: get请求下载后端返回的数据流* description: url[Stri…

Redis-指定配置启动

基础篇Redis 3.3.5.指定配置启动 如果要让Redis以后台方式启动,则必须修改Redis配置文件,就在我们之前解压的redis安装包下(/usr/local/src/redis-6.2.6),名字叫redis.conf: 我们先将这个配置文件备份一份…

利用 Scapy 库编写 ARP 缓存中毒攻击脚本

一、ARP 协议基础 参考下篇文章学习 二、ARP 缓存中毒原理 ARP(Address Resolution Protocol)缓存中毒是一种网络攻击,它利用了ARP协议中的漏洞,通过欺骗或篡改网络中的ARP缓存来实施攻击。ARP协议是用于将IP地址映射到物理MAC…

警务数据仓库的实现

目录 一、SQL Server 2008 R2(一)SQL Server 的服务功能(二)SQL Server Management Studio(三)Microsoft Visual Studio 二、创建集成服务项目三、配置“旅馆_ETL”数据流任务四、配置“人员_ETL”数据流任…

OM6626低功耗M4内核低睡眠电流BLE5.3 SoC国产ESL蓝牙方案芯片

目录 OM6626简介OM6626主要特性射频特性PUM特性安全性SDK代码微信号:dnsj5343OM6626最小系统Demo板 OM6626简介 OM6626是功能强大、性能稳定、超低功耗的蓝牙SoC芯片,适用于各种低功耗蓝牙和专有的2.4GHz应用场景。OM6626还集成了电源管理单元 (PMU)&am…

机器视觉检测设备的组成要素

机器视觉检测设备是一种先进的自动化检测技术工具,它利用光学、图像处理和计算机硬件及软件技术模拟并扩展人类的视觉功能,以实现对产品或目标物体进行自动化的尺寸测量、缺陷检测、表面质量评估、颜色识别、形状匹配以及位置判断等功能。这种设备通常包…

PyCharm环境下Git与Gitee联动:本地与远程仓库操作实战及常见问题解决方案

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 前言下载及安装GitGit的使用设置用户签名设置用户安全目录Git基本操作Git实操操作 Pyc…

Python高阶函数库之functools使用详解

概要 functools是Python标准库中的一个模块,它提供了一系列用于高阶函数:即那些作用于或返回其他函数的函数。这些工具主要用于函数式编程风格,其中包括用于创建函数包装器的装饰器。 functools简介 functools库的目的是为了高阶函数,特别是那些涉及到函数转换的操作提供…

数据仓库的魅力及其在企业中的应用实践

数据仓库,这一创新性的概念来自于比尔恩门,从1980年代末提出以来,便凭借其独特的架构设计和强大的数据处理能力,在全球商业领域中掀起了一场革命。它不仅是解决企业海量数据存储和查询需求的关键技术,更是推动企业实现…

【Java】哈希表

文章目录 一、概念二、哈希冲突2.1概念2.2设计合理的哈希函数-避免冲突2.3调节负载因子-避免冲突2.4闭散列-冲突解决(了解)2.5开散列/哈希桶-冲突解决(重点掌握) 三、代码实现3.1成员变量及方法的设定3.2插入3.3重新哈希3.4 获取到…