图解直接映射(Direct mapped)、全相联(Fully-associative)和组相联(Set-associative)cache缓存基本原理

图解直接映射(Direct mapped)、全相联(Fully-associative)和组相联(Set-associative)cache

  • 一,直接映射缓存(Direct mapped caches)
    • 1.1 直接映射示例
    • 1.2 直接映射原理
    • 1.3 cache颠簸(cache thrashing)
  • 二,全相联映射(Fully-associative)
    • 2.1 全相联映射示例
    • 2.2 全相联映射原理
  • 三,组相联映射(Set associative caches)
    • 3.1 组相联映射示例
    • 3.2 组相联映射原理
  • 四,直接映射、全相联和组相联的优缺点以及应用范围
    • 4.1 直接映射优缺点
    • 4.2 全相联映射优缺点
    • 4.3 组相联映射优缺点
  • 五, 参考文档

一,直接映射缓存(Direct mapped caches)

在介绍直接映射、全相联和组相联映射之前,我们以停车场停车作为例子,先把这三种结构的特点简单地概括出来,便于读者了解。

  • 停车场 - cache
  • 停车 - linefill
  • 取车 - read cache line

1.1 直接映射示例

假如所有人的车都被赋予了一个独一无二的车牌号A(A=0,1,2,…,100,101,…),现在有一个共N=10个车位的停车场,每个车位号从0开始依次递增。现在规定车牌号为A的车子只能停在 停车位 n = A % N = A%10 的位置。如下图所示,车牌号为2的车子停在2号车位,车牌号为5的车子停在5号车位。按照这种规则,如果又来了一辆车牌号为102的车子,即使其他车位上还有空位,102号车子也只能停2号车位,如果2号车位已经有2号车占了,按照直接映射的规则,102车(newer)会把2号车(older)给驱逐(evict)出去。
在这里插入图片描述
上图描述了按照直接映射规则停车的过程,下图则是车主取车的过程(也就是从cache 中读取数据)。
假设我是102号车主,通过简单计算停车位 n =102%10 =2,很容易知道我的车子停在2号车位。

总结:直接映射规则下的停车场,每个车位都与车牌号直接对应,即使停车场还有大量空位,2号车和102号车也只能停2号车位。并按照后来者居上的原则,102号车会把2号车给驱逐出去,如果又来一辆52号车,102号车也会被52号车挤出去。所以驱逐现象(eviction)会频繁发生。
直接映射其优势在于车主很容易就知道自己的车子停在哪个车位,不用进行look-up来确认是否 miss还是hit。

在这里插入图片描述

1.2 直接映射原理

在众多的cache实现方式中,直接映射方式是最简单的。主存中的每个地址都能在cache中找到对应的cache line,不过主存空间是远远大于cache的存储空间的,所以它必须按照上述直接映射停车场的规则:n= A % N,将所有满足n= A % N的地址A放入cache下边为n的cache line。如下图所示的cahce,N=4,一个cache line大小为4个word,主存地址为0x0、0x40、0x80、…、的数据都将放在该cache的第0个cache line,以此类推。
在这里插入图片描述
我们可以推算出一个主存的地址如何被划分成 cache 地址,如下图所示,

  • 由于该cache只有4个cache line,所以只需2个bit即可描述cache line的index(0b00 \ 0b01 \ 0b10 \ 0b11),这里我们使用地址的bits [5:4]。
  • 一个cache line有4个word,也只需2个bit即可描述每个word的具体位置(0b00 \ 0b01 \ 0b10 \ 0b11),这里我们使用地址的[3:2]。
  • 地址的bits [31:6]我们用作Tag 信息,即告诉cache controler该地址来自主存的何处,用于判断hit or miss。
    在这里插入图片描述

当CPU读写一个地址时,cache controler会将该地址按照上图结构划分,并且进行如下操作:

  1. 首先抽取该地址的index位,直接去找cache中对应index的cache line。
  2. 然后抽取该地址的tag信息,如果与当前cache line里的tag一致,并且该cache line的valid bit为1(该cache line里的数据有效),即说明发生了 hit。如果valid bit为1,但是tag信息不一致,说明当前cache line保存的数据是其他地址的,接着需要将当前cache line里的数据驱逐到下一级内存中,并将新的地址上的数据填充进来。
  3. 如果是hit,接着把该地址的Line偏移量,可能还有bytes偏移量取出,在对应的cache line中提取数据。
    **所以内存中所有地址的bits [5:4] 相同的地址,都会映射到同一个位置的cache line。**但是在某个时刻,同一个cache line只能存放其中一个地址的数据,就像车位上某个时刻只能停一辆车一样。

1.3 cache颠簸(cache thrashing)

直接映射的一大副作用就是cache颠簸(cache thrashing),下面笔者用一个示例来解释这种现象。
有如下函数:

void add_array(int *data1, int *data2, int *result, int size)
{
int i;
for (i=0 ; i<size ; i++) {
result[i] = data1[i] + data2[i];
}
}

功能很简单,传入三个int类型指针:int *data1, int *data2, int *result,并在有限的size个循环内求和:result[i] = data1[i] + data2[i]。
假如传入如下参数:

add_array(0x40, 0x80, 0x00, 16);

即:

int *data1 =  0x40
int *data2 = 0x80
int *result = 0x00
int size = 16

在一个直接映射cache实现下会发生什么呢,完成求和运算result[i] = data1[i] + data2[i],会经过如下步骤:

  1. 假设当前 i=0, 首先会读取data1[0],也就是 0x40上的数据,先发生 read miss,然后linefill,将0x40 到0x4F一个cache line大小的数据填充到 cache的第0行。
    在这里插入图片描述
  2. 首先会读取data2[0],也就是 0x80上的数据,地址0x80按照规则,其数据也将放在第0个cache line。先发生 read miss,由于第0行已经存放了0x40的有效数据,所以会先进行evict,然后再把0x80上的数据替换进来:
    在这里插入图片描述
  3. 最后进行求和操作data1[0] + data2[0],并将结果保存在result[0],也就是地址0x00,0x00其数据也将放在第0个cache line。先发生 write miss,由于第0行已经存放了0x80的有效数据,所以还会先进行evict,然后再把求和结果0x00上的数据写进cache line。
    在这里插入图片描述

我们可以发现,仅仅是在一个求和result[i] = data1[i] + data2[i]循环中,就发生了2次eviction。cache里同一个cache line里的数据经常被写入写出(linefill and evict),这就是cache thrashing。这样的现象会严重影响系统的性能,因此在ARM系列处理器中,直接映射类型的主缓存基本上没有,但是可以在一些,比如ARM1136 处理器的分支目标地址缓存中看到直接映射缓存。

二,全相联映射(Fully-associative)

2.1 全相联映射示例

全相联映射规则下的停车场类似与现实生活中的停车场。如下图所示,任意车牌号的车可以停任何车位,有空位就可以停。
在这里插入图片描述
假设当前车位0,1,2都有车子占了,2号车子来了,它会按照一定的策略(replacement policy)来找空车位,本示例中是按照顺序查找。当它发现3号车位是空的时候,就把车子进去。102号车也是如此,停在了4号车位。
在这里插入图片描述
问题随之而来,当车主想要取车时,并不知道自己的车子停在了哪个车位。在最坏的情况下,需要遍历整个停车场(比较9次)才能找到自己的车。

总结: 全相联映射规则停车场的优势在于停车方便,车位利用率高,只要有空车位就能停进去。缺点是取车时比较困难,有可能需要遍历整个停车场才能找到自己的车。

在这里插入图片描述

2.2 全相联映射原理

主存中的任意一个地址可被映射进cache中的任意cache line,这就是全相联映射。正如上面的全相联映射停车场一样,虽然cache的利用率提高了,但是CPU 读写一个地址时,cache controler需要进行cache look-up才能知道是否发生hit 或者miss。在最坏的情况下,需要遍历整个cache,逐一比较才能得出是否hit的结论。
在这里插入图片描述

三,组相联映射(Set associative caches)

3.1 组相联映射示例

直接映射和全相联映射其实很好理解,铺垫了这么久其实是为了让同学们更加深刻地理解组相联映射的工作原理。直接映射是找车方便,全相联映射是停车方便。而组相联映射正是直接映射和全相联映射的组合解决方案。如下图所示,为一个组相联映射的停车场示意图。组相联映射有set 和way的概念,我们先简单理解为set就是行,way就是列。
组相联映射的停车规则如下:

  1. 停车时先选行,再选列。
  2. 行号n = 车牌号A % 停车场总行数 N。(直接映射规则)
  3. 确定了行号n后,车子可以停在n行的任意一列。(全相联映射规则)

下图中,车牌号为2的车子只能停在set2,但是在set2里,可以任意选择一个way,即way0,way1,way2,way3中只要有空位又可以停。同理,车牌号为5的车子也只能停在set5。
在这里插入图片描述
当2号车停在了set2+way1的位置,102号车按照规则必须停在set2,所以102号车可以停在way0、way2和way3中的任意位置。
在这里插入图片描述
不同于直接映射的停车场,同一个set中甚至可以把所有way都填满,才会发生驱逐现象。如下图所示,72号车会根据替换策略,随机选择一个way,将这个way上的车子驱逐出去,然后停进来。
在这里插入图片描述
当要找车时,2号车的车主,根据直接映射规则直接去set2里找,虽然他不知道车子在哪个way中,但是即使是最坏的情况,车主也只需比较4次(停车场的列数)即可发现自己的2号车在不在当前停车场(hit 或者miss)。
在这里插入图片描述

3.2 组相联映射原理

如下图所示,为一个组相联cache的结构,其中有三个概念需要理解:

  • way: 组相联cache 将cache分成几个大小相等的几片,每一片称为一个way,下图为一个 4-way的cache。
  • index:cache 的index其实就是cache line的行号。
  • set:index相同的cache line的集合称为一个set。比如way0、way1、way2和way3中index等于0的cache line称为set0。
    在这里插入图片描述
    上文组相联映射停车场示例中提到过,组相联映射实际上是直接映射与全相联映射的组合实现。也需要将一个地址分成如下三部分,其中地址的index部分就是该地址在cache中所在的set 号。主存中index相同的地址将映射到同一个set(直接映射),但是一个set内有多个位于不同way的cache line,地址上的数据可以放入任意一个way中的cache line(全相联映射)。
    在这里插入图片描述

如下图所示为一个2 way的cache结构。假设主存中地址 0x00、0x40、0x80的index都为0,按照组相联映射规则,0x00、0x40、0x80上的数据必须要存放在set0,但是可以在way0和way1中任意选择:
在这里插入图片描述

四,直接映射、全相联和组相联的优缺点以及应用范围

4.1 直接映射优缺点

  • 优点: 硬件实现简单,成本低.
  • 缺点: 灵活性差。每个主存块只有一个固定的行可以存放,因此即便cache中有大量空闲cache line可用,某个cache line上的data仍可能被替换出去。如果cache容量比较小,则非常容易发生冲突,频繁替换(cache trashing),效率大大降低。
  • 适用范围:直接映射方式一般用于大容量的cache中。

4.2 全相联映射优缺点

  • 优点: 全相联映射方式比较灵活,主存的地址可以映射到Cache的任一cache line中,Cache的利用率高,cache line冲突概率低。
  • 缺点: 硬件成本高,Cache比较电路的设计和实现比较困难。
  • 适用范围:只适合于小容量Cache。

4.3 组相联映射优缺点

  • 优点:cache line的冲突概率比较低,比较的硬件电路比全相联方式简单些,而且空间利用率比直接映射方式要高。
  • 缺点:实现难度和造价要比直接映射方式高。
  • 适用范围:绝大部分cache都采用这种折中方案。

五, 参考文档

cache地址映射,全相连、直接、组相联
主存到Cache直接映射、全相联映射和组相联映射

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/137419.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

flink集群与资源@k8s源码分析-总述

1 简介 集群和资源模块提供动态资源能力,是分布式系统关键基础设施,分布式datax,分布式索引,事件引擎都需要集群和资源的弹性资源能力,提高伸缩性和作业处理能力。本文分析flink的集群和资源的k8s模块,深入了解其设计原理,为开发自有的集群和资源组件做技术准备, 同时涉…

Canal实现Mysql数据同步至Redis、Elasticsearch

文章目录 1.Canal简介1.1 MySQL主备复制原理1.2 canal工作原理 2.开启MySQL Binlog3.安装Canal3.1 下载Canal3.2 修改配置文件3.3 启动和关闭 4.SpringCloud集成Canal4.1 Canal数据结构![在这里插入图片描述](https://img-blog.csdnimg.cn/c64b40c2231a4ea39a95aac81d771bd1.pn…

python装13的一些写法

一些当你离职后&#xff0c;让老板觉拍大腿的代码 1. any(** in ** for ** in **) 判断某个集合元素&#xff0c;是否包含某个/某些元素 代码&#xff1a; if __name__ __main__:# 判断 list1 中是否包含某个/某些元素list1 [1,2,3,4]a any(x in [5,4] for x in list1) 输…

【AI语言模型】阿里推出音视频转文字引擎

一、前言 阿里的音视频转文字引擎可以正式使用&#xff0c;用户可体验所有AI功能&#xff0c;含全文概要、章节速览、发言总结等高阶AI功能。通过阿里云主账号登录&#xff0c;可享受以下权益&#xff1a; 每日登录&#xff0c;自动获得2小时转写时长&#xff1b; 每邀请1名好…

python项目2to3方案预研

目录 官方工具2to3工具安装参数解释基本使用工具缺陷 future工具安装参数解释基本使用工具缺陷 python-modernize工具安装参数解释基本使用工具缺陷 pyupgrade工具安装参数解释基本使用工具缺陷 对比 官方工具2to3 2to3 是Python官方提供的用于将Python 2代码转换为Python 3代…

Jenkins学习笔记4

配置构建流程&#xff1a; Jenkins任务创建&#xff1a; 1&#xff09;创建新任务&#xff1a; 把这个Accept first connection改成 No Validation。问题得到解决。 构建触发器这块暂时没有需要配置的。 传输文件到nginx-server这个web服务器中。 将文件上传到/usr/share/n…

Django(18):中间件原理和使用

目录 概述Django自带中间件Django的中间件执行顺序自定义中间件函数使用类 其它中间件钩子函数process_viewprocess_exceptionprocess_template_response如何使用这3个钩子函数&#xff1f; 全局异常处理小结 概述 中间件(middleware)是一个镶嵌到Django的request(请求)/respo…

Learn Prompt-Prompt 高级技巧:Agents 组件详解

在以LLM驱动的Agent系统中&#xff0c;LLM扮演着Agent的大脑角色&#xff0c;并辅以几个关键组件&#xff1a; 规划&#xff1a;LLM能够进行全面的规划&#xff0c;不仅仅是简单的任务拆分。它可以评估不同的路径和策略&#xff0c;制定最佳的行动计划&#xff0c;以实现用户给…

MongoDB【部署 02】mongodb使用配置文件启动、添加为系统服务及自启动(一个报错:[13436][NotMasterOrSecondary])

MongoDB使用配置文件启动、添加为系统服务及设置自启动 1.是什么2.下载安装启动配置2.1 下载2.2 安装2.3 配置2.4 使用配置文件启动 3.设置系统服务及自启动3.1 设置为系统服务3.2 自启动 1.是什么 【以下内容来自ChatGPT3.5】 MongoDB是一个流行的开源文档型数据库管理系统&a…

41. Linux系统配置FTP服务器并在QT中使用QFtp实现文件上传

1. 说明 这篇博客主要记录一些在Linux系统中搭建FTP服务器时踩过的一些坑,以及在使用QFtp上传文件时需要注意的问题。 2. FTP环境搭建 在linux系统中,需要安装vsftpd,可以在终端中输入下面的命令进行安装: sudo apt-get install vsftpd使用上述命令安装后,系统中会有一…

ChunJun(OldNameIsFlinkX)

序言 ChunJun主要是基于Flink实时计算框架,封装了不同数据源之间的数据导入与导出功能.我们只需要按照ChunJun的要求提供原始与目标数据源的相关信息给Chunjun,然后它会帮我们生成能运行与Flink上的算子任务执行,这样就避免了我们自己去根据不同的数据源重新编辑读入与读出的方…

学习笔记|模数转换器|ADC原理|STC32G单片机视频开发教程(冲哥)|第十七集:ADC采集

文章目录 1.模数转换器&#xff08;ADC&#xff09;是什么&#xff1f;手册说明&#xff1a; 2.STC32G单片机ADC使用原理19.1.1 ADC控制寄存器&#xff08;ADC_CONTR)19.1.2 ADC配置寄存器&#xff08;ADCCFG)19.1.4ADC时序控制寄存器&#xff08;ADCTIM&#xff09;19.3 ADC相…

CSS盒子模型、列表样式

盒子模型 常用的html标签都可以看作一个盒子&#xff0c;称为盒子模型 盒子由四部分组成&#xff1a; content、padding、border、margin 边框 border:border-width&#xff08;粗细&#xff09; | border-style(样式) | border-color&#xff08;颜色&#xff09; #one{bor…

云原生的简单理解

一、何谓云原生&#xff1f; 一种构建和运行应用软件的方法 应用程序从设计之初即考虑到云的环境&#xff0c;原生为云而设计&#xff0c;在云上以最佳姿势运行&#xff0c;充分利用和发挥云平台的弹性分布式优势。 二、包括以下四个要素 采用容器化部署&#xff1a;实现云平…

蓝牙核心规范(V5.4)10.6-BLE 入门笔记之L2CAP

蓝牙篇之蓝牙核心规范(V5.4)深入详解汇总 1.概述 L2CAP负责协议复用、流量控制、服务数据单元(SDU)的分段和重组。它使用通道的概念来分隔在堆栈层之间传递的数据包序列。固定通道不需要设置,立即可用,并与特定的上层协议相关联。通道也可以通过指定的协议服务多路复用器…

湖南衡阳3D扫描在生物仿真研究的应用高精度三维扫描螃蟹-CASAIM中科广电

生物仿真研究与应用一直是科研及工艺品的热门方向&#xff0c;很多设计脱胎于生物本身&#xff0c;传统方式又大多只能以画师手绘为主&#xff0c;做到“纤毫毕现”极其困难&#xff0c;故而才有了“齐白石的虾”、“徐悲鸿的马”等出圈的艺术家的画作&#xff0c;对于某种生物…

深度学习论文: ISTDU-Net:Infrared Small-Target Detection U-Net及其PyTorch实现

深度学习论文: ISTDU-Net&#xff1a;Infrared Small-Target Detection U-Net及其PyTorch实现 ISTDU-Net&#xff1a;Infrared Small-Target Detection U-Net PDF: https://doi.org/10.1109/LGRS.2022.3141584 PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTo…

jvm-sandbox-repeater源码解析-配置管理

一、配置初见 源码里提供的控制台截图如下&#xff1a;&#xff08;怎么搭建自己去百度&#xff09; 从中取出对应的配置如下&#xff1a; { "degrade": false, //阻断能力 "exceptionThreshold": 1000, //异常采样率 "httpEntrancePatterns&qu…

SunTorque亮相GAF2023数字化智能装配工程与装备技术大会

智能扭矩系统-智能拧紧系统-智能扭矩控制-SunTorque GAF2023数字化智能装配工程与装备技术大会在中国上海汽车会展中心盛大开幕&#xff0c;青创智通与装配领域、智能制造、数字化应用等相关先进智造技术的知名企业一齐亮相。 本次展会&#xff0c;我们带来了扭矩相关解决方案…

Vivado IP中Generate Output Products的设置说明

文章目录 Vivado IP中Generate Output Products的设置说明Synthesis OptionsRun Settings 官方文档中的介绍Generate Output ProductsSynthesis Options for IP 参考文献 Vivado IP中Generate Output Products的设置说明 在创建IP核时&#xff0c;将IP核的信息配置完成之后会弹…