基于亲和性的 GPU 容器绑核策略 Copy

1.引言

     在高性能计算和大规模并行任务处理中，GPU已经成为不可或缺的加速器。为了充分发挥GPU的计算能力，通过合理分配CPU核与GPU的绑定来优化CPU和GPU的关系至关重要。我们将探讨socket和NUMA（非统一内存访问）的概念，并讨论如何基于这些硬件架构实现CPU和GPU核心绑定，以保证最佳的系统性能。

2.Socket概念

2.1什么是SocKet

Socket 通常指的是主板上用于安装物理 CPU 的插槽。每个 Socket 对应一个物理 CPU，通常包含多个核心（Core）和一个或多个缓存层次结构（如L1、L2、L3缓存）。在多 Socket 系统中（例如，双路或四路服务器），每个 Socket 上安装的物理 CPU 通过高速互联总线（如 Intel 的 QPI 或 AMD 的 Infinity Fabric）相互连接。

2.2多 Socket系统的特点

在多Socket系统中，各个 Socket 上的CPU可以分别访问自己本地的内存，同时也能够访问其他 Socket 的内存。这种内存访问模式引出了NUMA的概念，旨在优化内存访问的效率。

3.NUMA（非统一内存访问）架构

3.1什么是 NUMA

NUMA 是 Non-Uniform Memory Access 的缩写，即非统一内存访问。与传统的统一内存访问（UMA）不同，在NUMA 架构中，系统内存被划分成多个区域，每个区域与特定的 CPU（Socket）紧密关联。CPU 访问自己 Socket对应的内存（本地内存）速度更快，而访问其他 Socket 对应的内存（远程内存）则会产生较高的延迟。

3.2NUMA 节点和内存访问延迟

在 NUMA 系统中，每个 Socket 及其直接连接的内存组成一个 NUMA 节点。同一 NUMA 节点内的内存访问速度较快，而跨节点的内存访问会因为需要经过额外的总线传输而导致更高的延迟。因此，优化内存和 CPU 的亲和性，使任务尽量在对应的 NUMA 节点内运行，是性能优化的重要一环。

4.CPU和GPU物理关系

4.1GPU的硬件架构

 GPU 通常通过 PCIe（Peripheral Component Interconnect Express）总线与 CPU 通信。在多Socket系统中，GPU通常只连接到某一个 Socket（及其对应的NUMA节点）上，而不跨 Socket 连接。这意味着在实际运行时，GPU 与连接的那个 Socket 上的 CPU 核心和内存具有更高的带宽和更低的延迟。

4.2CPU 和 GPU 亲和性

   CPU 和 GPU 之间的通信主要依赖于数据的传输。数据从 CPU 传递到 GPU，再从 GPU 传递回 CPU，过程中涉及到的内存访问操作对性能影响巨大。如果 GPU 绑定的 CPU 核心位于与其相同的 NUMA 节点上，那么数据传输的延迟将显著降低。因此，绑定 CPU 核心与 GPU 的关系是提升性能的关键

5.基于亲和性的GPU与CPU核心绑定策略

在使用Docker容器化部署应用时，实现 GPU 与 CPU 的亲和性绑定是提高容器内计算任务性能的关键。通过 Docker 的CPU 和 GPU 资源控制功能，可以精确地控制容器使用的 CPU 核，并将这些 CPU 核与 GPU 进行绑定。

5.1容器中的CPU和GPU资源分配

   Docker容器允许精确控制分配给容器的 CPU 和 GPU 资源。通过指定容器使用的 CPU 核和 GPU 设备，可以实现容器内任务的亲和性绑定，优化计算性能。