【解读Kubernetes架构】全面指南，带你掌握Kubernetes的设计原理与构成！

了解 Kubernetes 架构：综合指南

前言
一、什么是 Kubernetes 架构？
- 1.1、控制平面
- 1.2、工作节点
二、Kubernetes 控制平面组件
- 2.1、kube-api服务器
- 2.2、etcd
- 2.3、kube-scheduler
- 2.4、Kube 控制器管理器
- 2.5、云控制器管理器（CCM）
三、Kubernetes 工作节点组件
- 3.1、Kubelet
- 3.2、Kube 代理
- 3.3、容器运行时
四、Kubernetes 集群插件组件
- 4.1、CNI插件
五、Kubernetes 原生对象
六、Kubernetes 架构常见问题
七、总结

前言

本文关于 Kubernetes 架构的综合指南旨在通过插图详细解释每个 Kubernetes 组件。

了解 Kubernetes 的架构。
掌握 Kubernetes 的基本概念。
了解 Kubernetes 架构组件。
探索连接这些组件的工作流。

在这里插入图片描述

一、什么是 Kubernetes 架构？

以下 Kubernetes 架构图显示了 Kubernetes 集群的所有组件以及外部系统如何连接到 Kubernetes 集群。
在这里插入图片描述
关于 Kubernetes，应该了解的第一件事是，它是一个分布式系统。即它有多个组件分布在网络上的不同服务器上。这些服务器可以是虚拟机或裸机服务器。我们称之为 Kubernetes 集群。

Kubernetes 集群由控制平面节点和工作节点组成。

1.1、控制平面

控制平面负责容器编排和维护集群的所需状态。它具有以下组件。

kube-api服务器。
etcd。
kube-调度程序。
kube-控制器管理器。
云控制器管理器。

1.2、工作节点

Worker 节点负责运行容器化应用程序。worker 节点具有以下组件。

kubelet。
kube-代理。
容器运行时。

二、Kubernetes 控制平面组件

首先看一下每个控制平面组件以及每个组件背后的重要概念。

2.1、kube-api服务器

kube-api 服务器是公开 Kubernetes API 的 Kubernetes 集群的中心枢纽。

最终用户和其他集群组件通过 API 服务器与集群通信。在极少数情况下，监控系统和第三方服务可能会与 API 服务器通信以与集群进行交互。

因此，当使用 kubectl 管理集群时，在后端实际上是通过 HTTP REST API 与 API 服务器进行通信。但是，内部集群组件（如调度程序、控制器等）使用 gRPC 与 API 服务器通信。

API 服务器与集群中的其他组件之间的通信通过 TLS 进行，以防止对集群进行未经授权的访问。
在这里插入图片描述
Kubernetes api-server 负责以下工作：

API 管理：公开集群 API 终端节点并处理所有 API 请求。
身份验证（使用客户端证书、持有者令牌和 HTTP 基本身份验证）和授权（ABAC 和 RBAC 评估）。
处理 API 请求并验证 API 对象（如 Pod、服务等）的数据（验证和变更准入控制器）
它是唯一与etcd通信的组件。
api-server 协调控制平面和工作节点组件之间的所有进程。
api-server 有一个内置的堡垒 apiserver 代理。它是 API 服务器进程的一部分。它主要用于启用从群集外部访问 ClusterIP 服务，即使这些服务通常只能在群集本身内访问。

注意：为了减少群集攻击面，保护 API 服务器至关重要。Shadowserver 基金会进行了一项实验，发现了 380,000 个可公开访问的 Kubernetes API 服务器。

2.2、etcd

Kubernetes 是一个分布式系统，它需要一个高效的分布式数据库，如 etcd 来支持其分布式性质。它既充当后端服务发现，又充当数据库。可以称它为 Kubernetes 集群的大脑。

etcd 是一个开源的强一致性分布式键值存储。那么这意味着什么呢？

强一致性：如果对某个节点进行了更新，则强一致性将确保它立即更新到集群中的所有其他节点。此外，如果看过CAP定理，就不可能实现100%的可用性，并具有很强的一致性和&分区容差。
分布式：etcd 被设计为在不牺牲一致性的情况下作为集群在多个节点上运行。
键值存储：将数据存储为键和值的非关系数据库。它还公开键值 API。数据存储建立在 BboltDB 之上，BboltDB 是 BoltDB 的一个分支。

etcd 使用 raft 共识算法，具有很强的一致性和可用性。它以领导者-成员的方式工作，以实现高可用性并承受节点故障。

那么 etcd 是如何与 Kubernetes 一起工作的呢？简单地说，当使用 kubectl 获取 kubernetes 对象详细信息时，是从 etcd 获取的。此外，当部署像 pod 这样的对象时，会在 etcd 中创建一个条目。

需要了解的有关 etcd 的信息：

etcd 存储 Kubernetes 对象的所有配置、状态和元数据（pod、secret、daemonsets、deployments、configmaps、statefulsets 等）。
etcd允许客户端使用 API 订阅事件。Kubernetes api-server 使用 etcd 的监视功能来跟踪对象状态的变化。Watch()
etcd 使用 gRPC 公开键值 API。此外，gRPC 网关是一个 RESTful 代理，可将所有 HTTP API 调用转换为 gRPC 消息。这使它成为 Kubernetes 的理想数据库。
etcd 以键值格式存储 /registry 目录项下的所有对象。例如，可以在 /registry/pods/default/nginx 下找到默认命名空间中名为 Nginx 的 Pod 的信息。

在这里插入图片描述
此外，etcd 它是控制平面中唯一的 Statefulset 组件。

2.3、kube-scheduler

kube-scheduler 负责在工作节点上调度 Kubernetes Pod。

部署容器时，可以指定容器要求，例如 CPU、内存、关联性、污点或容错、优先级、持久卷（PV）等。调度程序的主要任务是识别创建请求，并为满足要求的 Pod 选择最佳节点。

下图显示了调度程序工作原理的高级概述。
在这里插入图片描述
在 Kubernetes 集群中，将有多个工作节点。那么调度程序是如何从所有工作节点中选择节点的呢？

下面是调度程序的工作原理：

为了选择最佳节点，Kube-scheduler 使用过滤和评分操作。
在筛选中，调度程序会找到最适合调度 Pod 的节点。例如，如果有 5 个具有资源可用性的工作器节点来运行 Pod，则它会选择所有 5 个节点。如果没有节点，则 Pod 不可调度并移动到调度队列。如果它是一个大型集群，假设有 100 个工作节点，并且调度程序不会遍历所有节点。有一个名为的调度器配置参数。默认值通常为 50%。因此，它试图以循环方式迭代超过 50% 的节点。如果工作器节点分布在多个区域中，则调度程序将遍历不同区域中的节点。对于非常大的集群，默认值为 5%。
在评分阶段，调度程序通过向筛选的工作器节点分配分数来对节点进行排名。调度程序通过调用多个调度插件进行评分。最后，将选择排名最高的 worker 节点来调度 pod。如果所有节点的排名相同，则将随机选择一个节点。
选择节点后，调度程序将在 API 服务器中创建绑定事件。表示绑定 Pod 和节点的事件。

2.4、Kube 控制器管理器

什么是控制器？控制器是运行无限控制循环的程序，即它连续运行并监视对象的实际和所需状态。如果实际状态和期望状态存在差异，则确保 kubernetes 资源/对象处于期望状态。

官方文件的描述：在 Kubernetes 中，控制器是监视集群状态的控制循环，然后在需要时进行更改或请求更改。每个控制器都尝试将当前集群状态移近所需状态。

假设要创建部署，在清单 YAML 文件中指定所需的状态（声明性方法）。例如，2 个副本、1 个卷挂载、configmap 等。内置的部署控制器可确保部署始终处于所需状态。如果用户使用 5 个副本更新部署，则部署控制器会识别它并确保所需的状态为 5 个副本。

Kube 控制器管理器是管理所有 Kubernetes 控制器的组件。Kubernetes 资源/对象（如 Pod、命名空间、作业、副本集）由各自的控制器管理。此外，Kube 调度器也是由 Kube 控制器管理器管理的控制器。
在这里插入图片描述
重要的内置 Kubernetes 控制器列表。

部署控制器
Replicaset 控制器
DaemonSet 控制器
作业控制器（Kubernetes 作业）)
CronJob 控制器
端点控制器
命名空间控制器
服务帐户控制器。
节点控制器

需要了解的有关 Kube 控制器管理器的信息：

它管理所有控制器，控制器尝试将集群保持在所需状态。
可以使用与自定义资源定义关联的自定义控制器来扩展 kubernetes。

2.5、云控制器管理器（CCM）

在云环境中部署 kubernetes 时，云控制器管理器充当云平台 API 和 Kubernetes 集群之间的桥梁。

这样，核心 kubernetes 核心组件可以独立工作，并允许云提供商使用插件与 kubernetes 集成。（例如，kubernetes 集群和 AWS 云 API 之间的接口）

云控制器集成允许 Kubernetes 集群预置云资源，例如实例（用于节点）、负载均衡器（用于服务）和存储卷（用于持久卷）。

在这里插入图片描述
云控制器管理器包含一组特定于云平台的控制器，可确保特定于云的组件（节点、负载均衡器、存储等）处于所需状态。以下是云控制器管理器中的三个主要控制器：

节点控制器：此控制器通过与云提供商 API 通信来更新与节点相关的信息。例如，节点标记和注释，获取主机名，CPU和内存可用性，节点运行状况等。
路由控制器：它负责在云平台上配置网络路由。这样不同节点的 Pod 就可以相互通信。
服务控制器：它负责为 kubernetes 服务部署负载均衡器、分配 IP 地址等。

云控制器管理器的一些经典示例：

部署负载均衡器类型的 Kubernetes 服务。在这里，Kubernetes 预置了特定于云的负载均衡器，并与 Kubernetes 服务集成。
为云存储解决方案支持的 Pod 配置存储卷（PV）。

一句话：Cloud Controller Manager 管理 Kubernetes 使用的云特定资源的生命周期。

三、Kubernetes 工作节点组件

现在看一下每个工作节点组件。

3.1、Kubelet

Kubelet 是一个 Agent 组件，运行在集群中的每个节点上。t 不作为容器运行，而是作为守护程序运行，由 systemd 管理。

它负责向 API 服务器注册工作节点，并主要从 API 服务器使用 podSpec（Pod 规范 – YAML 或 JSON）。podSpec 定义了应在 Pod 内运行的容器、它们的资源（例如 CPU 和内存限制）以及其他设置，例如环境变量、卷和标签。然后，它通过创建容器将 podSpec 带到所需状态。

简单地说，kubelet 负责以下工作：

创建、修改和删除容器。
负责处理活跃度、准备情况和启动探测。
负责通过读取 Pod 配置并在主机上为卷挂载创建相应的目录来挂载卷。
通过调用 API 服务器来收集和报告节点和 Pod 状态，实现方式为 cAdvisor 和CRI。

Kubelet 也是一个控制器，它监视 Pod 的变化，并利用节点的容器运行时来拉取镜像、运行容器等。

除了来自 API 服务器的 PodSpec 之外，kubelet 还可以接受来自文件、HTTP 端点和 HTTP 服务器的 podSpec。“来自文件的 podSpec”的一个很好的例子是 Kubernetes 静态 pod。

静态 Pod 由 kubelet 控制，而不是由 API 服务器控制。即可以通过向 Kubelet 组件提供 Pod YAML 位置来创建 Pod。但是，Kubelet 创建的静态 Pod 不受 API 服务器的管理。

静态 Pod 的真实示例用例：在引导控制平面时，kubelet 从位于pod/etc/kubernetes/manifests的 podSpecs 的静态 pod 启动 api-server、scheduler 和控制器管理器。

kubelet 的一些关键内容：

Kubelet 使用 CRI（容器运行时接口）gRPC 接口与容器运行时通信。
它还公开 HTTP 终结点以流式传输日志，并为客户端提供 exec 会话。
使用 CSI（容器存储接口）gRPC 配置块存储卷。
它使用集群中配置的 CNI 插件来分配 Pod IP 地址，并为 Pod 设置任何必要的网络路由和防火墙规则。

在这里插入图片描述

3.2、Kube 代理

要了解 Kube 代理需要对 Kubernetes 服务和端点对象有基本的了解。

Kubernetes 中的服务是一种在内部或向外部流量公开一组 Pod 的方法。创建服务对象时，它会为其分配一个虚拟 IP。它被称为 clusterIP。它只能在 Kubernetes 集群中访问。

Endpoint 对象包含 Service 对象下 Pod 组的所有 IP 地址和端口。端点控制器负责维护容器 IP 地址（端点）列表。服务控制器负责为服务配置终结点。

无法 ping ClusterIP，因为它仅用于服务发现，这与可 ping 的 Pod IP 不同。

现在让我们了解一下 Kube Proxy。Kube-proxy 是一个守护进程，它作为守护进程集在每个节点上运行。它是一个代理组件，用于实现 Pod 的 Kubernetes 服务概念。（具有负载均衡功能的一组 Pod 的单个 DNS）。它主要代理 UDP、TCP 和 SCTP，不理解 HTTP。

当使用 Service （ClusterIP）公开 Pod 时，Kube-proxy 会创建网络规则，将流量发送到 Service 对象下分组的后端 Pod（端点）。即所有负载均衡和服务发现都由 Kube 代理处理。

那么 Kube-proxy 是如何工作的呢？

Kube 代理与 API 服务器通信，以获取有关服务（ClusterIP）和相应 Pod IP 和端口（端点）的详细信息。它还监视服务和终结点的更改。然后，kube-proxy 使用以下任一模式创建/更新规则，将流量路由到 Service 后面的 Pod。

IPTables：这是默认模式。在 IPTables 模式量由 IPtable 规则处理。这意味着，对于每个服务，都会创建 IPtable 规则。这些规则捕获进入 ClusterIP 的流量，然后将其转发到后端 Pod。此外，在这种模式下，kube-proxy 会随机选择后端 pod 进行负载均衡。建立连接后，请求将转到同一 Pod，直到连接终止。
IPVS：对于服务超过 1000 的集群，IPVS 提供性能改进。它支持以下后端负载均衡算法。
- rr： round-robin ：这是默认模式。
- lc：最少连接数（最小打开连接数）。
- dh：目标哈希。
- sh：源哈希。
- sed：最短的预期延迟。
- nq：从不排队。
用户空间（旧版&不推荐）
Kernelspace：此模式仅适用于 Windows 系统。

在这里插入图片描述
此外，可以通过将 Kubernetes 集群替换为 Cilium 来运行没有 kube-proxy 的 Kubernetes 集群。