满帮集团 Eureka 和 ZooKeeper 的上云实践

作者:胡安祥

满帮集团,作为“互联网+物流”的平台型企业,一端承接托运人运货需求,另一端对接货车司机,提升货运物流效率。2021 年美股上市,成为数字货运平台上市第一股。根据公司年报,2021 年,超过 350 万货车司机在平台上完成超 1.283 亿个订单,实现总交易价值 GTV 2623 亿元,占中国数字货运平台份额超 60%。2022 年 10 月,运满满司机版 MAU 达到 949.21 万人,货车帮司机版 MAU 为 399.91 万人;运满满货主版 MAU 为 218.68 万人,货车帮货主版 MAU 为 63.78 万人。 (以下内容基于满帮实践,由聪言、子葵整理)

业务增长对服务稳定性的挑战

满帮集团在业务生产环境中自建微服务网关,负责南北方向流量调度、安全防护以及微服务治理,同时考虑到多活容灾能力还提供了诸如同机房优先调用、容灾跨机房调用等机制。微服务网关作为微服务架构前端的组件,充当了所有微服务的流量入口。客户端的请求进来会先打到 ALB(负载均衡),然后到内部的网关,再通过网关路由到具体的业务服务模块。

所以网关需要通过一个服务注册中心来动态发现当前生产环境部署的所有微服务实例,当部分服务实例因故障而无法提供服务时,网关还可以跟服务注册中心搭配工作,自动将请求转发到健康的服务实例上,实现故障转移和弹性,使用自研框架配合服务注册中心实现服务间调用,同时使用自建配置中心实现配置管理和变更推送,满帮集团最早采用了开源 Eureka,ZooKeeper 来搭建集群实现服务注册中心和配置中心,这套架构也很好的承接了满帮集团前期的业务快速增长。

但是随着业务体量的逐渐增大,业务模块越来越多,服务注册实例数爆发式增长,自建 Eureka 服务注册中心集群和 ZooKeeper 集群在这套架构的稳定性问题也日益明显。

满帮集团的同学在运维的时候发现自建的 Eureka 集群在服务注册实例到达 2000+ 规模的时候,由于 Eureka 集群节点之间在做实例注册信息同步的时候,部分节点处理不过来,很容易出现节点挂掉无法提供服务最终引发故障的问题;ZooKeeper 集群频繁 GC 导致服务间调用和配置发布出现抖动,影响整体稳定性,并且由于 ZooKeeper 默认没有任何开启鉴权和身份认证能力,配置存储面临安全挑战,这些问题也给业务的稳定持久发展带来了很大的挑战。

业务架构平滑迁移

在上述业务背景下,满帮同学选择了紧急上云,采用阿里云 MSE Nacos,MSE ZooKeeper 产品来替换原先的 Eureka 和 Zookeeper 集群,但是如何才能做到低成本快速的架构升级,以及上云期间业务流量的无损平滑迁移呢?

在这个问题上,MSE Nacos实现了对开源 Eureka 原生协议的完全兼容,内核仍然由 Nacos 驱动,业务适配层把 Eureka InstanceInfo 数据模型和 Nacos 的数据模型(Service 和 Instance)做了一一映射。而这一切对于满帮集团已经对接过自建 Eureka 集群的业务方而言,做到了完全透明。

这就意味着,原先的业务方在代码层面上完全不用改动,只需要把 Eureka Client 连接的服务端实例 Endpoint 配置修改成 MSE Nacos 的 Endpoint即可。使用上同样也很灵活,既可以继续使用原生的 Eureka 协议把 MSE Nacos 实例当成一个 Eureka 集群来用,也可以 Nacos、Eureka 客户端双协议并存,不同协议的服务注册信息之间支持互相转换,从而保证业务微服务调用的连通性。

另外在上云过程中,MSE 官方提供了 MSE-Sync 解决方案,是一款基于开源 Nacos-Sync 优化后的迁移配套数据同步工具,支持双向同步、自动拉取服务和一键同步的功能。满帮同学通过 MSE-Sync 很轻松的完成原先自建 Eureka 集群上已有的线上服务注册存量数据一键迁移到新的 MSE Nacos 集群,同时后续在老的集群上新注册的增量数据也会源源不断的自动获取同步到新集群,这样就保证了在业务实际切流迁移之前,两边的集群服务注册实例信息始终是完全一致的。待数据同步 check 通过之后,将原先的 Eureka Client 的 Endpoint 配置进行替换,重新发布升级后就成功的迁移到新的 MSE Nacos 集群了。

图片

突破原生 Eureka 集群架构性能瓶颈

满帮集团在找到 MSE 团队合作技术架构升级的时候,提出的最重要的一条诉求,就是要解决原先 Eureka 集群间服务注册信息同步压力大的问题,这其是因为 Eureka Server 是传统的对等星型同步 AP 模型导致的,各个 Server 节点角色相等完全对等,对于每次变更(注册/反注册/心跳续约/服务状态变更等)都会生成相应的同步任务来用于所有实例数据的同步,这样一来同步作业量随着集群规模、实例数正相关同步上涨。

满帮集团同学实践下来,当集群服务注册规模达到 2000+ 的时候,发现部分节点 CPU 占用率、负载都很高,时不时还会假死导致业务抖动。这一点在 Eureka 官方文档也有提及,开源 Eureka 的这种广播复制模型,不仅会导致它自身的架构脆弱性,也影响了集群整体的横向扩展性。

Replication algorithm limits scalability: Eureka follows a broadcast replication model i.e. all the servers replicate data and heartbeats to all the peers. This is simple and effective for the data set that eureka contains however replication is implemented by relaying all the HTTP calls that a server receives as is to all the peers. This limits scalability as every node has to withstand the entire write load on eureka.

图片

而 MSE Nacos 在架构选型上就考虑到这个问题并给出了更好的解决方案,那就是自研的 AP 模型 Distro 协议,保留了星型同步模型的基础上,Nacos 对所有服务注册实例数据进行了 Hash 散列、逻辑数据分片,为每一条服务实例数据分配一个集群责任节点,每一个 Server 节点仅负责自己 own 的那一部分数据的同步和续约逻辑,同时集群间数据同步的粒度相对于 Eureka 也更小。这样带来的好处是即使在大规模部署、服务实例数据很多的情况下,集群间同步的任务量也能保证相对可控,并且集群规模越大,这样的模式带来的性能提升也愈发明显。

图片

持续迭代优化追求极致性能

MSE Nacos 和 MSE ZooKeeper 在完成了满帮集团的全量微服务注册中心业务的承接后,在后续的升级版本中持续迭代优化,通过大量的性能压测对比测试,从各个细节上继续优化服务端性能来优化业务体验,接下来会针对升级版本的优化点逐一分析介绍。

服务注册高可用容灾保护

原生 Nacos 提供了高阶功能:推空保护,服务消费者(Consumer)通过注册中心订阅服务提供者(Provider)的实例列表,当注册中心进行变更或遇到突发情况, 或服务提供者与注册中心间的链接因网络、CPU 等其他因素发生抖动时,可能会导致订阅异常,从而使服务消费者获取到空的服务提供者实例列表。

为了解决这个问题,可以在 Nacos 客户端或 MSE Nacos 服务端开启推空保护功能,以提高整个系统的可用性。我们同样把这个稳定性功能引入到了对 Eureka 的协议支持中,当 MSE Nacos 服务端数据出现异常的时候,Eureka 客户端从服务端拉取数据的时候,会默认得到容灾保护支持,保障业务使用的时候不会拿到不符合预期的服务提供者实例列表,而导致业务故障。

另外 MSE Nacos 和 MSE ZooKeeeper 还提供了多重高可用保障机制,如果业务方有更高的高可靠性和数据安全需求,在创建实例的时候可以选择不少于 3 节点的方式进行部署。当其中某个实例故障的时候,节点间秒级完成切换,故障节点自动离群。同时 MSE 每个 Region 都包含多个可用区,同一个 Region 内不同 Zone 之间的网络延迟很小(3ms 以内),多可用区实例可以将服务节点部署在不同可用区,当可用区 A 出现故障的时候,流量会在很短的时间内切换到另外的可用区 B。整个过程业务方无感知,应用代码层面无感知、无需变更。这一个机制只需要配置多节点部署,MSE 会自动帮你部署到多个可用区进行打散容灾。

图片

支持 Eureka 客户端增量拉取数据

满帮同学在迁移到 MSE Nacos 之后,原先服务端实例假死无法提供服务的问题得到了很好的解决,但是发现机房的网络带宽占用过高,偶尔服务高峰期还会出现带宽打满的情况。后来发现是因为每次 Eureka 客户端从 MSE Nacos 拉取服务注册信息的时候,每次都只支持全量拉取,大几千级别的数据量定时拉取,导致网关层面的 FGC 次数也升高了很多。

为了解决这个问题,MSE Nacos 上线了针对 Eureka 服务注册信息的增量拉取机制,配合上客户端使用方式的调整,客户端只需要在首次启动后拉取一次全量数据,后续只需要根据增量数据来保持本地数据和服务端数据的一致性,不再需要周期性的全量拉取,而正常生产环境中变更增量数据的数据量很小,这样一来可以大幅降低出口带宽的压力。满帮同学在升级了这个优化版本之后,发现带宽从升级前的 40MB/s 一下子降到了 200KB/s,带宽打满问题迎刃而解。

图片

充分压测优化服务端性能

MSE 团队后续对 MSE Nacos 集群 For Eureka 的场景进行了更大规模的性能压测,并通过各种性能分析工具排查业务链路上的性能瓶颈点,对原有功能进行了更多的性能优化和底层性能调参。

  • 针对服务端的全量和增量数据注册信息引入了缓存,并基于服务端数据 hash 来判断是否发生变更。在 Eureka 服务端读多写少的场景下,可以大幅减少了 CPU 计算生成返回结果的性能开销。
  • 发现 SpringBoot 原生的 StringHttpMessageConverter 在处理大规模数据返回的时候存在性能瓶颈,提供了 EnhancedStringHttpMessageConverter 来优化字符串数据 IO 传输性能。
  • 服务端数据返回支持 chunked。
  • Tomcat 线程池数根据容器配置自适应调整。

满帮集团在完成了以上版本迭代升级之后,服务端各项参数也取得了很棒的优化结果:

图片

服务端 CPU 利用率从 13% 降到了 2%

图片

注册中心读 RT 从原先 55ms 降至 3ms 以内

图片

图片

服务端 YGC Count 从原先的 10+ 降至 1

*YGC Time 从原先的 125ms 降至 10ms 以内 *

旁路优化,保障集群高压下的稳定性

满帮同学在迁移到 MSE ZooKeeper 一段时间后,集群又出现了 Full GC,导致集群不稳定,经过 MSE 紧急排查,发现是因为 ZooKeeper 中 Metrics 的一个watch相关的统计指标在计算时对当前节点保存的 watch 数据进行了全量拷贝,在满帮的场景下有非常大的 Watch 规模,metrics 计算拷贝 watch 在这样的场景下产生了大量的内存碎片,导致最终集群无法分配出符合条件的内存资源,最终 Full GC。

为了解决这个问题,MSE ZooKeeper 针对非重要 metrics 采取降级的措施,保障这部分 metrics 不会影响集群稳定性,针对 watch 拷贝的 metrics,采取动态获取的策略,避免数据拷贝计算带来的内存碎片问题。在应用此优化之后,集群 Young GC 时间和次数都明显下降。

图片

图片

优化之后集群能够平稳承接 200W QPS,GC 稳定

持续参数优化,寻找延时和吞吐量的最佳平衡点

满帮同学将自建 ZooKeeper 迁移到 MSE ZooKeeper 之后,发现应用发布时,客户端读取 ZooKeeper 中数据的延时过大,应用启动读取配置超时,导致应用启动超时,为了解决这个问题,MSE ZooKeeper 针对性进行压测分析,在满帮的场景下,ZooKeeper 在应用发布时需要承接大量请求,请求产生的对象在现有的配置中导致Young GC 频繁。

针对这种场景,MSE 团队经过多轮压测调整集群配置,寻找请求延时和 TPS 最优的交点,在满足延时需求的前提下,探索集群最优性能,在保证请求延时 20ms 的前提下,集群在日常 10w QPS 的水平下,CPU 从 20% 降低到 5%,集群负载显著降低。

后记

在数字货运行业竞争激烈和技术快速发展的背景下,满帮集团成功地实现了自身技术架构的升级,从自建的 Eureka 注册中心平滑迁移到了更为高效和稳定的 MSE Nacos 平台。这不仅代表了满帮集团在技术创新和业务扩展上的坚定决心,同时也展现了其对未来发展的深远规划。满帮集团将微服务架构的稳定性和高性能作为其数字化转型的核心,全新的注册中心架构带来的显著性能提高和稳定性增强,为满帮提供了强有力的支撑,使得平台能够更加从容地应对日益增长的业务需求,并且有余力以应对未来可能出现的任何挑战。

值得一提的是,满帮集团在整个迁移过程中的敏捷反应和技术团队的专业执行力也加速了架构升级的步伐。业务平台的成功转型不仅增强了用户对满帮服务的信任,也为其他企业提供了宝贵的经验。在未来,满帮将继续与 MSE 紧密合作,致力于进一步提升技术架构的稳定性、可扩展性和性能,持续为业界树立标杆,推动整个物流行业的数字化转型。

在此次迁移过程中,业务能够平稳无损迁移和性能的大幅提升,证明了 MSE 在服务注册中心领域的卓越性能和可靠性。相信随着 MSE 的不断演进,其对易用性和稳定性的持续追求无疑将为更多企业带来巨大的商业价值,并在企业数字化进程中发挥越来越重要的作用。

此外,MSE 还全面支持微服务治理功能,包括流量防护、全链路灰度发布等。通过在入口网关到后端应用配置完备的限流规则,有效地解决了突发流量带来的系统稳定性风险,保障系统持续稳定运行,企业能够更加专注于核心业务的发展。 满帮集团的成功案例为行业树立了新的里程碑,我们怀着期待的目光,期待更多的企业都能在数字化征途上取得更辉煌的成就。

满帮 CTO 王东(东天)寄语: 充分了解和利用云的能力,能够让满帮技术团队从底层的持续投入中解脱出来,聚焦更上层的系统稳定性和工程效率,从架构层面实现更高的 ROI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/333764.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ (week5):Linux系统编程3:线程

文章目录 三、线程1.线程的基本概念①线程相关概念②我的理解 2.线程的基本操作 (API)(1)获取线程的标识:pthread_self(2)创建线程:pthread_create()(3)终止线程①pthread_exit():当前线程终止,子线程主动退出②pthread_cancel()&…

深入解析BGP:互联网路由协议的全貌与应用

BGP(Border Gateway Protocol)是互联网上用于在自治系统(AS)之间交换路由信息的协议。它负责决定数据包的最佳路径以及路由的选择。以下是BGP的一些关键特点和工作原理的详细内容: BGP的特点: 1.路径矢量型…

Android开发 -- JNI开发

1.配置JNI环境 创建JNI文件夹 在项目的主目录中创建一个名为 JNI 的文件夹。这个文件夹将包含所有的本地源代码和配置文件。 编写Android.mk文件 这个文件是一个 Makefile,用来指导 NDK 如何编译和构建本地代码。 #清除之前定义的变量,确保每个模块的…

《python编程从入门到实践》day40

# 昨日知识点回顾 编辑条目及创建用户账户 暂没能解决bug: The view learning_logs.views.edit_entry didnt return an HttpResponse object. It returned None instead.# 今日知识点学习 19.2.5 注销 提供让用户注销的途径 1.在base.html中添加注销链接 …

运维笔记.Docker镜像分层原理

运维专题 Docker镜像原理 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550263/artic…

探讨大米自动化生产线包装设备的智能化发展趋势

随着科技的飞速发展,智能化已经成为各行各业转型升级的重要方向。在大米生产领域,自动化生产线包装设备的智能化发展更是引领着粮食产业的未来潮流。星派将从智能化技术、市场需求、发展趋势等方面,探讨大米自动化生产线包装设备的智能化发展…

java图书电子商务网站的设计与实现源码(springboot+vue+mysql)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的图书电子商务网站的设计与实现。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 图书电子商…

鸿蒙ArkTS声明式开发:跨平台支持列表【按键事件】

按键事件 按键事件指组件与键盘、遥控器等按键设备交互时触发的事件,适用于所有可获焦组件,例如Button。对于Text,Image等默认不可获焦的组件,可以设置focusable属性为true后使用按键事件。 说明: 开发前请熟悉鸿蒙开…

嵌入式进阶——外部中断(EXTI)

🎬 秋野酱:《个人主页》 🔥 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 STC8H中断外部中断外部中断编写配置外部中断调用中断触发函数 外部中断测试测试外部中断0测试外部中断2、3或者4 PCB中断设计 STC8…

echarts取消纵坐标,自定义提示内容,完整 echarts 布局代码

效果图 实现代码 开启点击柱子时的提示内容 //完整写法请看下面tooltip: {trigger: axis,axisPointer: {type: shadow}},自定义提示内容 //完整写法请看下面formatter: function (param) {// param是悬浮窗所在的数据(x、y轴数据)let relVal "&…

【华为】将eNSP导入CRT,并解决不能敲Tab问题

华为】将eNSP导入CRT,并解决不能敲Tab问题 eNSP导入CRT打开eNSP,新建一个拓扑右键启动查看串口号关联CRT成功界面 SecureCRT连接华为模拟器ensp,Tab键不能补全问题选择Options(选项)-- Global Options (全局选项&#…

LangChain技术解密:构建大模型应用的全景指南

💂 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】🤟 一站式轻松构建小程序、Web网站、移动应用:👉注册地址🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交…

vue3父组件改变 子组件不改变(uniapp)

项目中遇到了这么个问题 场景:封装select组件,通过子组件选中后传递值给父组件,父组件需要回显这个值(这里使用 defineProps和defineEmits就可以实现,或者直接使用defineModel也可以实现,但是uniapp目前不…

学习编程对英语要求高吗?

学习编程并不一定需要高深的英语水平。我这里有一套编程入门教程,不仅包含了详细的视频讲解,项目实战。如果你渴望学习编程,不妨点个关注,给个评论222,私信22,我在后台发给你。 虽然一些编程资源和文档可能…

AI大模型在测试中的深度应用与实践案例

文章目录 1. 示例项目背景2. 环境准备3. 代码实现3.1. 自动生成测试用例3.2. 自动化测试脚本3.3. 性能测试3.4. 结果分析 4. 进一步深入4.1. 集成CI/CD管道4.1.1 Jenkins示例 4.2. 详细的负载测试和性能监控4.2.1 Locust示例 4.3. 测试结果分析与报告 5. 进一步集成和优化5.1. …

文件上传漏洞:pikachu靶场中的文件上传漏洞通关

目录 1、文件上传漏洞介绍 2、pikachu-client check 3、pikachu-MIME type 4、pikachu-getimagesize 最近在学习文件上传漏洞,这里使用pikachu靶场来对文件上传漏洞进行一个复习练习 废话不多说,开整 1、文件上传漏洞介绍 pikachu靶场是这样介绍文…

一键批量整理神器:轻松将相同名称文件归类至指定文件夹,告别繁琐文件管理!

信息爆炸的时代,电脑中的文件数量如潮水般涌现,管理起来令人头疼不已。您是否曾因为文件命名不规范而耗费大量时间寻找某个重要资料?是否曾因为文件散落各处而影响了工作效率?现在,我们为您隆重推荐一款文件管理神器—…

APM2.8如何供电

APM2.8飞控供电有两种, 1.电流计供电, 2.带BEC(稳压功能)的电调供电 飞控有一个JP1,它是一个供电选择接口,当插入跳线帽时,飞控用带BEC电调供电,当不插入时,用电流计供…

英语新概念2-回译法-lesson16

第一次回译 if you ___ your car on a wrong place, the traffic police man will find you quickly. If he do not give you the ticket,you are lucky.However,the ___ not all like this,The police man is __ sometimes.I had a holiday in Sweden, I found a ___ in my c…

《java数据结构》--顺序表详解

一.顺序表的概念🙉 🐱顺序表是一段物理地址连续的储存单元,一次储存数据元素的线性结构。一般情况下采用数组储存,和数组的增删查改类似。 但是顺序表和数组还是有区别的比如,数组按照是否可以扩容可以分为&#xff…