极氪汽车的云资源治理细探

作者：极氪汽车吴超

前言

2021 年，极氪 001 迅速崭露头角，仅用 110 天便创下了首款车型交付量“最快破万”的纪录。2022 年 11 月，极氪 009 在短短 76 天内便率先完成了首批交付，刷新了中国豪华纯电品牌交付速度的纪录。2023 年 6 月，极氪汽车再次交付 10620 辆，成为保持五个月连续同比增长的唯一豪华纯电品牌。至此，极氪 001 已成为全球最快突破 10 万辆销售的豪华车，再次稳居 30 万元以上纯电车型销冠。

在过去的两年里，极氪汽车业务加速发展，数字化发展部门面临巨大挑战。作为支持公司履约交付、整车交付、支付结算等诸多核心系统的技术部门，团队几乎每天都需要应对不同规模的应用发布，且应用系统所需的云资源消耗日益增加。之前，为确保业务快速发展得到有效支持，基础设施的整体架构缺乏顶层统筹规划，形势犹如野蛮生长。公司虽然在行业赛道中不断打破交付纪录，但疯狂增长背后，则是濒临失控的基础设施框架及成本支出，这种状况正对未来业务的可持续发展，带来了极大的风险和隐患。

因此，从去年开始，技术中台团队制定了明确的技术目标，力求尽快成立专项小组，深度整治现有基础设施的问题。团队期待通过改进基础架构，为极氪汽车未来基础架构的可持续发展保驾护航。

管理挑战

摆在面前的第一个问题，就是云原生场景下的资源管理。

事实上，自 2021 年起，我们便开始了微服务和容器化改造计划，90% 以上的服务以容器的形式构建和部署。早期在讨论如何优化计算资源的配置时，常规的做法是对服务器进行资源利用率检测，对利用率不超过一定阈值的资源，按照 CPU /内存峰值用量调整即可。但在云原生环境下，由于 Kubernetes 为容器资源管理提供了资源请求（Request）与资源限制（Limit）的语义描述，使得应用可以超额分配在对应的服务器资源上，若只是简单的分析计算资源利用率，而忽略了资源的分配率，可能导致在下一次应用发布时，因资源不足而无法调度容器到对应节点。

公司当前使用到阿里云及多个私有云平台，运行了数十个 K8s 集群，同时这些集群上承载了数千个 Pod 节点，在实际运行应用系统时，许多服务的利用率并不高，造成了极大的资源浪费。但是当我们着手制定计划，希望优化这部分资源时，发现诸多挑战：

资源管理复杂度高： 相比于应用直接部署在服务器上，云原生架构的优势在于对底层计算资源的管理更为精细化，以集群为单位的资源调度方式，对于提升集群利用率有显著的作用。但与之带来的问题便是管理复杂度的问题。通过一个集群统一管理应用，虽然降低了总体资源成本，但使得分账、拆账变得更为复杂，早期为了能够解决各业务的分账以及权限管控等场景，职能团队分别创建了不同的 K8s 集群，给到对应的项目组，用于部署应用系统，但集群的资源利用率并没有得到有效提升。同时，随着业务的不断扩展，这些集群涉及到不同部门、不同环境，版本已存在越来越大的差异。在应用部署时，由于管理人员的水平参差不齐，导致在日常运维及问题诊断时，十分耗时。
资源分配不够智能： 业务类别千差万别，有 B 端运营管理，也有 C 端的高并发应用，虽然 K8s 提供了资源分配的方式，但是对于运维发布人员来说，难以预判未来应用的真实流量情况，以至于难以合理分配 CPU /内存资源大小，仅按照经验参数统一给出默认规格配置。
如何实现长期主义： 在制定策略时，我们担心此类运动式的架构优化活动，即便投入了大量的人力成本，也只能在短期内使得资源管理“看上去很美”，而随着业务架构的不断调整，又或者因优化资源产生稳定性影响之后，对未来持续运营管理资源的信心将会消减，从而使得原本的成本投入的边际收益趋向于零。

业务目标

为应对云资源治理方面的不足，以及不同云平台的能力差异，我们曾考虑过是否需要建立一套 CMP 多云管理平台，对所涉及到的云平台及账号统一管理。但是在评估是否要立项时，我们认为云原生时代下“以资源为中心”的多云管理理念，难以满足我们对于应用架构设计的期待。这种管理方式，不仅开发成本极高，还需要适配多个云厂商的不同接口，并且对于资源管理的意义并没有想象中的大，只是解决了一部分资源开通创建的工作，但这并非是云原生环境下应用管理的核心场景及工作。

极氪当前的基础设施架构主要是以 K8s 集群为底座，这意味着只要能够管理好这些集群，便能够管理好资源，从而为上层的业务系统提供更大的价值。于是，我们在设计资源管理方案时，彻底摈弃了 CMP 的以资源为中心的多云资源管理理念，投向了聚焦于云原生基础设施的管理这一方向。

平台技术团队将此次在资源管理域的项目目标定义为：成本可见、用量可控、配置可管， 而当前需要解决的问题包括：

1. 成本洞察与分析： 设计更为精细化的成本均摊模型，看清各业务的成本支出情况，同时为不同业务提供 Pod 资源利用率的智能分析，辅助运维部署工程师在应用发布时，合理设置资源规格；

2. 配置基线检查： 针对现有部署脚本配置合规性问题，做基线检查，确保调整优化后的配置能够满足日常监控、故障自愈等场景；

3. 收敛 K8s 集群数量： 在不影响业务的情况下，对部分业务量较小的闲散 K8s 集群进行合并，收敛集群数量，降低架构复杂度及管理成本；

4. 基础设施无状态化： 考虑到未来的出海业务可能部署在当前未覆盖的云厂商，我们希望以 K8s 作为标准技术底座，将基础设施尽可能做到无状态化，在应用发布过程中，仅需要改动少量参数即可完成应用的上线工作。

方案选型

成本摊销

由于极氪当前大多数的应用部署在阿里云，基于二八原则，我们首先调研了关于阿里云 ACK FinOps 的解决方案。对于极氪的当前的基础设施现状来说，ACK FinOps 套件是一个不错的选择，其分别包含了集群、命名空间（Namespace）、节点池和应用四个维度的成本分析方案。

借助于命名空间和应用维度的成本分析，这种基于实际资源用量的分账逻辑，使得账单分摊不再局限以服务器为单位，从而也为未来 K8s 集群数量收敛，提供了必要的能力支持。

但在云原生的场景下，针对容器级别的成本摊销，需要考虑更多维度的业务场景。举例来说，一台 4C32G 的服务器，资源被分配出去 3C/8G，那么这个时候，CPU 资源影响了这台服务器剩余资源的瓶颈，反之亦然。此外，K8s 的 pod 资源模型支持 request、limit 两个维度的资源分配，而影响到调度资源的则是 request。对于一些被设置为 BestEffort 或是 Burstable QoS 等级，资源被超卖的节点来说，难以完全基于某个指标去判断逻辑合理性。

ACK FinOps 的成本分摊模型为我们提供了更丰富的选择，分别能够提供基于 CPU、内存单维度资源分摊模型和权重混合资源分摊模型等多种不同的逻辑实现。

单维度资源分摊模型的优势在于解释成本低，Pod 成本的计算逻辑大体为：

*Pod 成本 = （Pod 申请资源（Request）/ node 资源总量）node 节点单价即可。

业务团队仅需为实际使用量付费，当 K8s 集群规模较大时，未被分配的剩余闲置资源数越少，则也能侧面说明云平台团队治理能力的体现。

关于权重混合资源分摊模型，本质上要解决的是在同一集群内，同时充满了多样化的业务场景及开发技术栈。例如，对于一台 4C8G 的服务器，同时部署一个 1C6G 的服务和一个 2C1G 的服务，则这个使用，无论基于内存还是 CPU 的申请资源作为成本摊销的依据，均明显不合理。

在调研完了两种不同的分摊模型之后，考虑到极氪当前业务开发语言主要为 Java 技术栈的现状，应用 Pod 会向集群申请大量内存资源，导致内存的调度水位升高。虽然内存的单位成本较 CPU 而言，便宜的多，但对于该业务场景而言，内存成为了集群是否需要被扩容的瓶颈点。同时，不同于 CPU 的 QoS 存在显性的超卖，内存资源的利用率几乎约等于分配率，因此在此场景下，我们使用单一资源模型作为部门的成本分摊模型。

另一个问题是成本分账的颗粒度，未来整体平台架构的规划在完成了集群数量的收敛之后，会按照系统维度在命名空间层面做逻辑隔离，通过命名空间的分账方式能够满足业务需求。

ACK 成本洞察

至此，云原生应用容器成本分摊的整体策略方向基本确定下来。

资源水位分析

关于应用容器资源配额的优化，主要集中在 CPU 和内存两个方面：

CPU 资源优化：若只是调整 Pod 的 QoS 等级，将 CPU 的 Request 值做出调整，虽然短期可超卖更多的 CPU 资源用于资源部署，但对于线上应用来说一旦工作负载过高，易于出现资源争抢，致使服务被驱逐的情况。
内存资源优化：由于 Java 的内存资源在启动 JVM 时会被长时间占用，随着应用运行时间增加，一些代码质量较差的服务会逐渐出现内存未被及时回收的情况，从而导致 OOM 内存溢出。为避免 Pod 内存资源分配资源不足导致业务受损，工程师在启动 Pod 时设置的 Request/limit，通常会比 JVM 的堆栈内存要高出一定的比例。优化内存的同时，也需要考虑到业务潜在的 OOM 风险。

而容器服务 ACK 自带免费的成本套件 ack-koordinator 提供的资源画像能力，能够帮助我们长周期、持续性的识别到集群内未被合理使用的资源，并给出推荐值作为参考依据，实现容器粒度的资源规格推荐，降低容器配置的复杂度。

ACK 资源画像会为工作负载的每个容器资源规格生成画像值，通过对比画像值（Recommend）、原始资源请求量（Request），以及画像配置的资源消耗冗余（Buffer），资源画像控制台会为工作负载生成操作的提示，例如对资源请求提高或降低（即升配或降配）。若工作负载有多个容器，则会提示偏差幅度最大的容器。

当画像值大于原始资源请求量：表示容器长期处于资源超用状态，存在稳定性风险，应及时提高资源规格，控制台提升建议升配，避免未来运行过程中的稳定性风险。而当画像值小于原始资源请求量时，则表示容器可能有一定程度的资源浪费，可以降低资源规格。

其底层算法会持续不断地收集容器的资源使用数据，取 CPU 和内存的聚合统计值生成画像结果，并针对时间因素采用了周期衰减算法；在聚合统计时，会给较新的数据采样点分配更高的权重，同时参考了容器出现 OOM 等运行状态信息，进一步提高了应用画像给出推荐值的准确性。最后，是从资源的可持续管理的视角出发，我们希望能够将现有的发布平台与资源画像的功能打通，做到自动推荐配置调优，从而规避未来业务量变化后，响应调整相对滞后的弊端。因此在同阿里云的云原生应用平台团队提出该需求之后，很快得到了响应，目前已能够提供 API 的能力，与极氪现有发布流程联动。

应用发布资源配额优化

资源管理

多云环境下的 K8s 多集群管理，最后是关于如何解决极氪分布式云现状下的资源管理问题。由于我们当前存在着私有云和 IDC，不同的环境下的计费模型存在比较大的差异，财务模型也各不相同，这些都对多云运管平面的成本分析能力提供了更多的挑战。

为此，我们选择了 ACK One 统一管理极氪当前涉及到的数十个线上、线下 K8s 集群，以便在业务发展过程中，为工程师管理集群带来更好的一致性的云原生应用管理体验。ACK One 是阿里云面向混合云、多集群、分布式计算等场景推出的分布式云容器平台，能够统一管理阿里云上、边缘、部署在客户数据中心以及其他云上的 Kubernetes 集群，并简化集群管理界面，从而灵活地根据自身业务和数据管控等需求。

结合 ACK One，阿里云容器服务 FinOps 套件提供了统一的云服务厂商的账单与询价接入与默认实现，支持主流的云服务厂商、IDC 自建机房的费用数据的接入，并通过一致的云原生容器场景成本分摊与估算模型，进行成本管理。此外，还提供了多集群、多环境的统一集群管理、统一资源调度、统一数据容灾和统一应用交付能力，也提供了统一的财资治理能力。

ACK One 多集群管理应用场景

最后，ACK FinOps 套件能够下发至线下及混合云环境，非常适合分析云下 IDC 节点及应用的成本。由于 ACK FinOps 无法获取线下以及其它云厂商的单位价格，为此，ACK One 为每个节点提供基于标签 Label 的方式，配置单独价格的相关配置方案。

kubectl label nodes  node.kubernetes.io/price-per-day="100"

在选择 ACK One 作为极氪云原生 K8s 多集群管理解决方案时，除了对于成本管控以外，配置检查和备份管理等功能也是我们当前所重点关心的。以配置检查为例，基于阿里云容器安全最佳实践，能够一键免费检查多云/混合云集群应用配置安全风险，保证多云/混合云集群容器应用的安全性、有效性和稳定性，并及时发现了早前的存量应用配置潜在的安全稳定性隐患。

应用 Pod 配置检查包括：

安全性：特权参数配置，高危内核 Capabilities，root 用户启动，未开启 TLS 的 Ingress，匿名用户权限绑定等。
有效性：CPU /内存资源配额限制缺失等。
稳定性：liveness 和 readiness 探针缺失，单副本启动等。

建设成果

通过阿里云容器服务提供的 ACK One 多集群管理、云原生资源画像等功能，极氪得以对线上及线下近 30 套 K8s 集群实现统一管理。取得了多方面的实质性的业务成果：

高效的资源利用

通过利用资源画像功能分析数千个 Pod 的资源使用情况，企业识别并检查了空闲资源、找到了潜在的资源配置问题。在修复这些问题后，部署策略得到优化，从而为企业减少了近 25% 的资源用量。这一举措每年帮企业节省了数百万元的 IT 成本投入，并显著提高了资源利用效率。
系统稳定性和业务连续性的保障

结合业务需求，企业制定了多种备份策略。针对这些策略，在 ACK One 平台上执行数据备份和恢复操作。这一做法提高了企业的业务连续性和数据安全性，进一步加强了系统的稳定性。
跨云和混合云资源的集中管理

ACK One 多集群管理功能使得企业能够在阿里云容器管理平台上实现对多个 K8s 集群的集中管理和维护，包括线上和线下环境。这种统一的管理架构降低了企业操作复杂性，提高了工作效率。
敏捷的业务拓展和快速响应

通过优化 K8s 集群和资源配置，企业能够在业务需求变化时更加敏捷地进行资源调整及扩展。这种弹性架构确保了企业能够在市场环境变化时迅速调整策略，提高竞争力。
应用发布策略的优化

借助 ACK One 的分析功能，企业得以优化应用发布策略，从而使系统更加稳定和高效。企业不仅降低了故障率，还释放了更多的时间和精力来关注核心业务的创新和发展。
提升团队技能和合作效率

在使用 ACK One 进行统一管理的过程中，企业内部团队对于 K8s 集群和相关产品技术的掌握程度逐渐提高。此外，由于各个职能团队之间在 ACK One 平台进行协作，也提高了团队的合作效率。

未来展望

今天，云计算已经成为全社会的数字经济基础设施，而云原生技术正在深刻地改变企业上云和用云的方式。极氪汽车作为新能源汽车的头部企业之一，在过去两年的高速发展过程中，围绕着云原生基础设施架构做了大量的技术、架构以及产品的关键选型，并整体落地了微服务、K8s、DevOps 等云原生代表技术及能力。与此同时，在分布式云技术设施架构的大背景之下，也面临了多重的挑战，也踩过不少的坑。

云原生时代的 FinOps 成本治理是一个很大的话题，FinOps 基金会将其定义为成本分析（Inform）、成本优化（Optimize）、持续运营（Operate）三个阶段。虽然前两个阶段能够更加显性的达到快速降本的目标，但如若不持之以恒的精细化管控资源，很快便会回到原样，只有将资源管理纳入到应用发布流程管控之中，才能真正管好云，用好云。面向未来，确保基础设施架构具备可持续发展的能力，赋能业务以更加稳定、高效、低成本的方式运行，充分发挥云的巨大价值，释放技术红利，仍有更长的路要走。