CXL 内存交织(Memory Interleaving)



🔥点击查看精选 CXL 系列文章🔥
🔥点击进入【芯片设计验证】社区,查看更多精彩内容🔥


📢 声明

  • 🥭 作者主页:【MangoPapa的CSDN主页】。
  • ⚠️ 本文首发于CSDN,转载或引用请注明出处【https://mangopapa.blog.csdn.net/article/details/132553166】。
  • ⚠️ 本文目的为 个人学习记录知识分享。因个人能力受限,存在协议解读不正确的可能。若您参考本文进行产品设计或进行其他事项并造成了不良后果,本人不承担相关法律责任。
  • ⚠️ 若本文所采用图片或相关引用侵犯了您的合法权益,请联系我进行删除。
  • 😄 欢迎大家指出文章错误,欢迎同行与我交流 ~
  • 📧 邮箱:mangopapa@yeah.net
  • 💬 直达博主:loveic_lovelife 。(搜索或点击扫码)

文章目录

  • 0. 缩写
  • 1. CXL 内存交织概念
  • 2. CXL 内存交织实现
    • 2.1 HDM Decoder 基本介绍
      • 2.1.1 交织集/交织设置(Interleave Set)
    • 2.2 HDM Decoder 相关寄存器
      • 2.2.1 CXL HDM Decoder 能力结构
        • 2.2.1.1 状态
        • 2.2.1.2 控制
      • 2.2.2 CXL HDM Decoder 扩展能力结构
      • 2.2.3 Desired_Interleave @CXL DVSEC ID0
    • 2.3 HDM Decoder 解码规则
      • 2.3.1 CXL RP/USP 中的 HDM 地址解码
      • 2.3.2 CXL Device 中的 HDM 地址解码
  • 3. CXL 内存交织举例
  • 4. Q&A
  • 5. 参考


0. 缩写

缩略词释义
BIBack Invalidation
DPADevice Physical Address,设备物理地址
DSPDownstream Switch Port,Switch 的下行端口
eRCDExclusive Restricted CXL Device,只支持 CXL 1.1 的 CXL Device
HDMHost-managed Device Memory,由 Host 管理的 Device Memory
HPAHost Physical Address,主机物理地址
IGInterleave Granularity,交织粒度
IWInterleave Way,交织路数
RPRoot Port,根节点
UIOUnordered Input/Output,无序 IO
USPUpstream Switch Port,Switch 的上行端口


1. CXL 内存交织概念

  Memory Interleaving,内存交织,是一种内存访问方法,其将一段连续的内存地址映射到不同的内存,通过在不同内存上交叉访问来提高内存访问性能。一个带有 4 Bank 的内存交织访问示意图如下,其中红色 Bank 表示其正在进行自刷新且不可用。

https://en.wikipedia.org/wiki/Interleaved_memory#/media/File:Interleaving.gif

  对于 CXL 而言,CXL 内存交织是指把一段地址连续的 HDM 地址以统一的地址间隔映射到不同 CXL.mem Device 的 HDM 中。

  CXL 1.1 时,对于 Multi-head 的 eRCD,若多个 eRCD UP 直连到同一 CPU 内的 RCH 上,改 CPU 可以通过不同发 Flex Bus 来交织访问改 eRCD 的 HDM 空间。相关介绍可以参考《Multi-headed eRCD》。

  CXL 2.0 时支持多个 CXL Device 之间的内存交织,通过配置传输链路上相关 Host Bridge、USP 及 Device 内的 HDM Decoder 来实现相关控制。进一步地,CXL 支持在同一跨主桥逻辑下的 多个 CXL 主桥 之间、同一 CXL 主桥下的 多个 RP 之间、同一 Switch 内的 多个 DSP 之间有选择地进行 单级或多级 Interleave 访问。



2. CXL 内存交织实现

  CXL 主桥、USP 及 Device 基于 HDM Decoder 来实现内存交织中的 CXL.mem 包路由及 HPA->DPA 的地址映射。多个 CXL 主桥之间的 Interleave 由 跨主桥逻辑内的 Host 属性寄存器 进行控制。

2.1 HDM Decoder 基本介绍

  HDM Decoder 是 HDM 地址解码器,CXL 组件依据 HDM Decoder 内的相关配置把上层设备发来的 CXL.mem 访问请求路由到不同的端口或设备区域。

  HDM Decoder 位于 Host Bridge、USP 及 CXL Device 中:

  • 对于 Host Bridge 及 USP 而言,HDM Decoder 主要起路由作用,将 Host Bridge 或 USP 下发的 Transaction 分配到对应的 RP 或 DSP 上;
  • 对于 Device,HDM Decoder 主要用于把带有 Interleave 信息的 HPA 映射到 DPA。

2.1.1 交织集/交织设置(Interleave Set)

  同一 HDM Decoder 控制下的一组内存交织的 CXL Device 称为一个交织集(Interleave Set),HDM Decoder 基于以下关键参数对内存交织行为进行控制:

  • Base HPA ,HPA 基地址,要求 256 MB 地址对齐,即地址低 28b 为 0。
  • Size ,内存交织地址空间大小,需要为 256 MB 的整数倍,从 HPA Base ~ (HPA Base + Size)之间为当前 HDM Decoder 所要控制的内存交织地址范围。
  • Interleave Way (IW),内存交织路数,即把当前的 Size 的 HPA 空间映射到 IW 指示的路数,CXL 2.0 时 CXL RP/DSP/Device 支持 1/2/4/8 路交织,到 CXL 3.0 后同一 CXL Device 内还支持 3/6/12/16 路交织(RP/USP 不支持)
  • Interleave Granularity (IG),内存交织粒度,每隔 IG 所指示的粒度,就将相关包路由到下一路出口上;支持 256B、512B、1KB、2KB、4KB、8KB、16KB 粒度的内存交织,分别对应 HPA[8]~HPA[14]。对于 RCH 除外的 CXL Host Bridge 必须支持所有 IG(HPA[8:14]共七种),对于 CXL Type3 Device 必须支持其 HDM Decoder 能力结构显示的 HPA[8:11]或 HPA[12:14]中的至少一组 IG。
  • Target ,内存交织目标,可以为 CXL 根节点(RP)或 Switch 下行端口(DSP)。

  软件通过配置 HDM Decoder 来确定一个 Interleave Set。若同一 CXL 组件内存在多个 HDM Decoder,软件需确保同一组件内部多个 Decoder 之间以及同一 Path 内上下游 HDM Decoder 之间的行为一致,并通过 Commit Flow 发起自身一致性检查。对于同一组件内的多个 HDM Decoder,不能出现地址重合之类的错误;对于同一 Path 上的 HDM Decoder,上游 Decoder 的 Range 应包含下属 HDM Decoder 的 Range。

2.2 HDM Decoder 相关寄存器

2.2.1 CXL HDM Decoder 能力结构

  CXL 组件采用 CXL HDM Decoder 能力结构对其内部的 HDM Decoder 进行控制或指示,其寄存器分布如下图所示。

在这里插入图片描述

  对于 CXL 主桥(HID=“ACPI0016”),若其下存在多个 CXL RP,该 CXL 主桥的 CHBCR 中必须实现该能力结构;对于 CXL Switch,其 USP Component Register Block 中必须实现该能力结构;对于非 eRCD 的 Type 3 Device 或支持 BI/UIO 的 Type2 Device,应实现该能力结构,将 HPA 映射到其内部 DPA。

2.2.1.1 状态

  HDM Decoder 能力结构能够指示以下能力/参数/状态:

  • Decoder Count,当前组件内支持的 HDM Decoder 的数量,CXL Device 内最所支持 10 个 HDM Decoder,RP 和 Switch 最多支持 32 个;
  • Target Count,每个 Decoder 支持下属 1/2/4/8 个目标端口;
  • UIO Capable、Meta-NXM Capable,是否支持 UIO、Meta-NXM;
  • Address Interleave Capable,支持基于哪些 HPA 地址位的交织地址,有 HPA[8:11]和 HPA[12:14]两组;
  • 是否支持 3/6/12 或 16 路地址交织;、
  • ……

2.2.1.2 控制

  HDM Decoder 能力结构能够控制以下参数:

  • 是否开启 HDM Decoder
  • 每个 HDM Decoder 的基地址及 Size
  • 每个 HDM Decoder 的交织路数
  • 目标类型,为 HDM-D/DB 还是 HDM-H
  • 是否使能 BI 或 UIO 中的地址交织
  • 每一路所对应的 Port ID
  • ……

  每个 HDM Decoder 都有 Commit 相关寄存器,Commit 可以理解为 Decoder Info Valid,在配置完 HDM Decoder 之后需要按从前往后的顺序配置 Commit=1 并将其 Lock 住。

2.2.2 CXL HDM Decoder 扩展能力结构

  CXL HDM Decoder 能力结构支持的 HDM Decoder 数量有限,CXL 协议提供了一组 CXL HDM Decoder 扩展能力结构(CXL Extended HDM Decoder Capability Structure)以支持更多的 HDM Decoder 数量。CXL HDM Decoder 扩展能力结构内的寄存器布局与 CXL HDM Decoder Capability Structure 完全一致,两者 Capability ID 不同。

2.2.3 Desired_Interleave @CXL DVSEC ID0

  在 CXL Device 的 CXL PCIe DVSEC 中,HDM Range 寄存器内有换个 Desired_Interleave 字段来指示当前 HDM Range 所预期的内存交织粒度。CXL 1.1 的时候只支持 256B 和 4KB 两种粒度,到了 CXL 2.0 增加支持 512B, 1KB, 2KB, 8KB, 16KB 交织粒度。

  对于支持 CXL.mem 的 eRCD,若其通过多个 CXL Link 连接到了单个 CPU 上,该字段用以指示 Device 期望的交织粒度。BIOS 配置 CPU 通过交织的方式来访问该 HDM Range,在 Host 支持的范围内访问粒度可以采用 Device 所期望的粒度或最接近期望值的粒度。

  对于 Non-eRCD,该字段表示该设备期望交织粒度的最小值,可以视为一种 Hint。若 Device 实现了 HDM Decoder 能力结构,软件配置的 IG 建议大于等于 Device 所指示的 Desired_Interleave,即便比 Desired_Interleave 小,Device 也要保证内存交织功能正确。

  对于同一个 CXL Device,若当前 CXL Range 内的多个 DPA Range 有不同的 Desired_Interleave 值,Device 应采用所有 DPA Range 中的最大 Desired_Interleave 值;对于同一 Interleave Set 中的多个 Device,若其上报的 Desired_Interleave 值不同,软件选择最小的 Desired_Interleave 值。

2.3 HDM Decoder 解码规则

2.3.1 CXL RP/USP 中的 HDM 地址解码

  若开启了 CXL 内存交织,CXL RP 及 USP 中的 HDM Decoder 负责检测 HPA 是否位于 Active Decoder 的 HPA Base ~HPA+Size 之间,

  • 若没落在任何 Decoder 范围内,
    • Write 直接 Drop;
    • Read 且 Decoder Error Enable=0,直接反馈全 1;
    • Read 且 Decoder Error Enable=1,反馈 Poison。
  • 若落在了某 Decoder 范围之内,
    • 依据 HDM Decoder 中的交织粒度及交织路数参数,提取当前 HPA 相关地址位,判断需要路由到哪一路端口中;
    • 读取上述端口号,发送到上述请求到相关该端口。

2.3.2 CXL Device 中的 HDM 地址解码

  若开启了 CXL 内存交织,CXL Device 中的 HDM Decoder 负责检测是否位于 Active Decoder 的 HPA Base ~HPA+Size 之间,并将 HPA 还原为 DPA,

  • 若没落在任何 Decoder 范围内,
    • Write 直接 Drop;
    • Read 且 Decoder Error Enable=0,直接反馈全 1;
    • Read 且 Decoder Error Enable=1,反馈 Poison。
  • 若落在了某 Decoder 范围之内,抹去 HPA 内用以 Interleave 用的地址位作为 DPA Offset,加上 DPA.Base 作为 DPA,Device 内部访问 DPA。


3. CXL 内存交织举例

  CXL 内存交织支持单级或多级 Interleave,其中 Target 为 RP、DSP 的层级中 Interleave 路数只能为 1/2/4/8 路,跨主桥逻辑及 CXL 设备内支持 3/6/12/16 路 Interleave。

  下图是一个对 16~20 TB 的 HPA 空间进行 8 路三级 Interleave 的例子。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-luSeVGfr-1693265230892)(RackMultipart20230828-1-a7e9p4_html_b1f6f63b7c816202.gif)]

  上图释义如下:

  • 跨主桥逻辑内设置为 2 路交织,IG 为 4KB,依据 HPA[12]进行路由,即[16TB+2*n*4KB,16TB+2*n*4KB+4KB)区间内的 CXL.mem 请求路由至左侧的 CXL 主桥,[16TB+2*n*4KB+4KB,16TB+2*n*4KB+8KB)区间内的 CXL.mem 请求路由至右侧的 CXL 主桥;
  • 设置每一个 CXL 主桥的 HDM Decoder 为 2 路 2KB 粒度的交织,依据 HPA[11]决定路由到其下哪个 RP
  • 设置每一个 CXL Switch USP 的 HDM Decoder 为 2 路 1KB 粒度的交织,依据 HPA[10]决定路由到哪个 DSP;
  • 设置 CXL Device 为 8 路 1KB 交织,Device 以此为依据取 CXL.mem HPA[12:10]=0,转换为 DPA 后对 DPA 进行访问。


4. Q&A

  1. 同一 Decoder 下不同 Way 之间的 IG 可以不同吗?
    不可以,同一 Decoder 内只要=存在一个 IG 寄存器,所有 Way 均遵从该配置。

  2. RP/DSP 中没有 HDM Decoder 吗?
    RP 及 DSP 中没用 HDM Decoder,这两者的 Decode 之后的 Transaction 接收方,其根 USP 或 Device UP 是一对一点到点连接,无需 Interleave。

  3. Interleave Set 是如何建立的?
    配置链路上的各个 HDM Decoder 能力结构。

  4. HDM Decoder 能力结构中的 Commit 是什么意思?
    简单理解为 HDM Decoder 的 Info_Valid 吧。

  5. 上边下来的 CXL.mem 包没用 BDF 号吗?指定了 BDF 号的话,是怎么实现 Interleave 的?要改 BDF 吗?
    Interleave 仅限 CXL.mem 的包,其不是 PCIe 那种 TLP,没用 BDF,而是采用 HDR 或 PBR 的路由方式。



5. 参考

  1. CXL Base Spec, r3.0
  2. Interleaved memory - Wikipedia
  3. What is Interleaved Memory? | Webopedia
  4. 聊一聊DDR(7)—— 内存交织(memory interleaving) - 知乎 (zhihu.com)
  5. DDR 的多通道(channel)和交织(interleave) - 简书 (jianshu.com)
  6. memory interleaving(内存交织)_南风在冥想的博客-CSDN 博客
  7. 内存系列二:深入理解硬件原理- 知乎 (zhihu.com)
  8. 存储器术语interleave 解释_雨轩学院的博客-CSDN 博客

— END —


🔥 精选往期 CXL 协议系列文章,请查看【 CXL 专栏】🔥

⬆️ 返回顶部 ⬆️

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/115607.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java 读取TIFF JPEG GIF PNG PDF

Java 读取TIFF JPEG GIF PNG PDF 本文解决方法基于开源 tesseract 下载适合自己系统版本的tesseract ,官网链接:https://digi.bib.uni-mannheim.de/tesseract/ 2. 下载之后安装,安装的时候选择选择语言包,我选择了中文和英文 3.…

恒运资本:股票跌100%后怎么办?

在股票市场里,股票价格跌涨是日常的现象,有时候涨到令人惊喜,有时候却一路跌向谷底。股价跌到零的情况并不常见,可是,假如是跌了100%怎么办呢? 在探究该问题前,咱们需要了解股票跌100%是怎样的…

微服务之Nacos

1 版本说明 官网地址: https://github.com/alibaba/spring-cloud-alibaba/wiki/%E7%89%88%E6%9C%AC%E8%AF%B4%E6%98%8E 1.1 2021.x 分支 适配 SpringBoot 2.4, Spring Cloud 2021.x 版本及以上的Spring Cloud Alibaba 版本如下表(最新版本用*标记&am…

腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台

本文导读: 当前,大语言模型的应用正在全球范围内引发新一轮的技术革命与商业浪潮。腾讯音乐作为中国领先在线音乐娱乐平台,利用庞大用户群与多元场景的优势,持续探索大模型赛道的多元应用。本文将详细介绍腾讯音乐如何基于 Apach…

LeetCode-455-分发饼干-贪心算法

题目描述: 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。 对每个孩子 i,都有一个胃口值 g[i],这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j&#xff…

企业级数据共享规模化模式

数据共享正在成为企业数据战略的重要元素。对于公司而言,Amazon Data Exchange 这样的亚马逊云科技服务提供了与其他公司共享增值数据或从这些数据获利的途径。一些企业希望有一个数据共享平台,他们可以在该平台上建立协作和战略方法,在封闭、…

联邦学习FedAvg-基于去中心化数据的深度网络高效通信学习

随着计算机算力的提升,机器学习作为海量数据的分析处理技术,已经广泛服务于人类社会。 然而,机器学习技术的发展过程中面临两大挑战:一是数据安全难以得到保障,隐私泄露问题亟待解决;二是网络安全隔离和行业…

使用飞桨实现的第一个AI项目——波士顿的房价预测

part1.首先引入相应的函数库: 值得说明的地方: (1)首先,numpy是一个python库,主要用于提供线性代数中的矩阵或者多维数组的运算函数,利用import numpy as np引入numpy,并将np作为它的别名 part…

linux字符串处理

目录 1. C 截取字符串,截取两个子串中间的字符串linux串口AT指令 2. 获取该字符串后面的字符串用 strstr() 函数查找需要提取的特定字符串,然后通过指针运算获取该字符串后面的字符串用 strtok() 函数分割字符串,找到需要提取的特定字符串后,…

如何在小程序中给会员设置备注

给会员设置备注是一项非常有用的功能,它可以帮助商家更好地管理和了解自己的会员。下面是一个简单的教程,告诉商家如何在小程序中给会员设置备注。 1. 找到指定的会员卡。在管理员后台->会员管理处,找到需要设置备注的会员卡。也支持对会…

宠物赛道,用AI定制宠物头像搞钱项目教程

今天给大家介绍一个非常有趣,而粉丝价值又极高,用AI去定制宠物头像或合照的AI项目。 接触过宠物行业应该知道,获取1位铲屎官到私域,这类用户的价值是极高的,一个宠物粉,是连铲个屎都要花钱的,每…

USRP 简介,对于NI软件无线电你所需要了解的一切

什么是 USRP 通用软件无线电外设( USRP ) 是由 Ettus Research 及其母公司National Instruments设计和销售的一系列软件定义无线电。USRP 产品系列由Matt Ettus领导的团队开发,被研究实验室、大学和业余爱好者广泛使用。 大多数 USRP 通过以太网线连接到主机&…

本地部署 Stable Diffusion(Mac 系统)

在 Mac 系统本地部署 Stable Diffusion 与在 Windows 系统下本地部署的方法本质上是差不多的。 一、安装 Homebrew Homebrew 是一个流行的 macOS (或 Linux)软件包管理器,用于自动下载、编译和安装各种命令行工具和应用程序。有关说明请访问官…

【分享】PDF如何拆分成2个或多个文件呢?

当我们需要把一个多页的PDF文件拆分成2个或多个独立的PDF文件,可以怎么操作呢?这种情况需要使用相关工具,下面小编就来分享两个常用的工具。 1. PDF编辑器 PDF编辑器不仅可以用来编辑PDF文件,还具备多种功能,拆分PDF文…

GPT-4.0技术大比拼:New Bing与ChatGPT,哪个更适合你

随着GPT-4.0技术的普及和发展,越来越多的平台开始将其应用于各种场景。New Bing已经成功接入GPT-4.0,并将其融入搜索和问答等功能。同样,在ChatGPT官网上,用户只需开通Plus账号,即可体验到GPT-4.0带来的智能交流和信息…

使用flink sqlserver cdc 同步数据到StarRocks

前沿: flink cdc功能越发强大,支持的数据源也越多,本篇介绍使用flink cdc实现: sqlserver-》(using flink cdc)-〉flink -》(using flink starrocks connector)-〉starrocks整个流程…

小游戏分发平台如何以技术拓流?

2023年,小游戏的发展将受到多方面的影响,例如新技术的引入、参与小游戏的新玩家以及游戏市场的激烈竞争等。首先,新技术如虚拟现实(VR)、增强现实(AR)和机器人技术都可以带来新颖的游戏体验。其…

嘉泰实业和您共创未来财富生活

每一次暖心的沟通都是一次公益,真诚不会因为它的渺小而被忽略;每一声问候都是一次公益,善意不会因为它的普通而被埋没。熟悉嘉泰实业的人都知道,这家企业不但擅长在金融理财领域里面呼风唤雨,同时也非常擅长在公益事业当中践行,属于企业的责任心,为更多有困难的群体带来大爱的传…

大数据课程K13——Spark的距离度量相似度度量

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握Spark的距离度量和相似度度量; ⚪ 掌握Spark的欧氏距离; ⚪ 掌握Spark的曼哈顿距离; ⚪ 掌握Spark的切比雪夫距离; ⚪ 掌握Spark的最小二乘法; 一、距离度量和相似度度量 1. …

打磨 8 个月、功能全面升级,Milvus 2.3.0 文字发布会现在开始!

Milvus 社区的各位伙伴: 大家晚上好!欢迎来到 Milvus 2.3.0 文字发布会! 作为整个团队的匠心之作,Milvus 2.3.0 历经 8 个月的设计与打磨,无论在新功能、应用场景还是可靠度方面都有不小的提升。 具体来看:…