*4.3 CUDA MEMORY TYPES

CUDA设备包含几种类型的内存,可以帮助程序员提高计算到全局内存的访问率,从而实现高执行速度。图4.6显示了这些CUDA设备内存。全局内存和恒定内存出现在图片的底部。主机可以通过调用API函数来写入(W)和读取(R)这些类型的内存。我们已经在第2章中引入了全局内存,数据并行计算。设备可以写入和读取全局内存。恒定内存支持设备短延迟、高带宽只读访问。
在这里插入图片描述

寄存器和共享内存,如图4.6所示,是片上内存驻留在这些类型内存中的变量可以以高度并行的方式以非常高速的方式访问寄存器分配给单个线程每个线程只能访问自己的寄存器内核函数通常使用寄存器来保存对每个线程都是私有的经常访问的变量共享内存位置分配给线程块;块中的所有线程都可以访问分配给该块的共享内存变量。共享内存是线程的一种通过共享他们的输入数据和中间结果进行合作的有效手段。通过在CUDA内存类型之一中声明CUDA变量,CUDA程序员决定了变量的可见性和访问速度。

为了充分理解寄存器、共享内存和全局内存之间的区别,我们需要更详细地了解这些不同的内存类型如何在现代处理器中实现和使用。几乎所有现代处理器都从约翰·冯·诺伊曼在1945年提出的模型中找到其根源,如图4.7.所示,CUDA设备也不例外。CUDA设备中的全局内存映射到图4.7.中的内存盒。处理器盒对应于我们今天通常看到的处理器芯片边界。全局内存从处理器芯片上脱机,使用DRAM技术实现,这意味着长访问延迟和相对较低的访问带宽。寄存器对应于冯·诺伊曼模型的寄存器文件。寄存器文件位于处理器芯片上,这意味着与全局内存相比,访问延迟非常短,访问带宽高得多。在典型的设备中,寄存器文件的聚合访问带宽至少比全局内存高出两个数量级。此外,当变量存储在寄存器中时,其访问不再消耗片外全局内存带宽。这种带宽消耗的减少将反映为计算与全局内存访问比的增加。
在这里插入图片描述
更微妙的一点是,与对全局内存的访问相比,每次访问寄存器涉及的指令更少。大多数现代处理器中的算术指令都有“内置”寄存器操作数。例如,foating-point加法指令可能具有以下形式

fadd r1, r2, r3

其中r2和r3是寄存器编号,用于指定寄存器文件中可以找到输入操作数值的位置。存储Foating-point加法结果的位置值由 r1 指定。因此,当算术指令的操作数在寄存器中时,不需要额外的指令来使操作数值可用于执行算术计算的算术和逻辑单元(ALU)。

冯·诺曼模型
约翰·冯·诺伊曼(John von Neumann)在1945年的开创性报告中描述了一种建造电子计算机的模型,该模型基于开创性的电子离散可变自动计算机(EDVAC)计算机的设计。这个模型现在通常被称为冯·诺伊曼模型,是几乎所有现代计算机的基础蓝图。
冯·诺伊曼模型如图4.7.所示,计算机具有输入/输出功能,允许向系统提供和生成程序和数据。要执行程序,计算机首先将程序及其数据输入内存。
该程序由一系列指令组成。控制单元维护一个程序计数器(PC),其中包含要执行的下一个指令的内存地址。**在每个“指令周期”中,控制单元使用PC将指令获取到指令寄存器(IR)。然后,指令位用于确定计算机所有组件要采取的操作,这就是为什么该模型也被称为“存储程序”模型。**该术语意味着用户可以通过将不同的程序存储在内存中来改变计算机的行为。

同时,如果操作数值在全局内存中,处理器需要执行内存load操作,以使操作数值可用于ALU。例如,如果浮点加法指令的第一个操作数在全局内存中,则所涉及的指令可能会

load r2, r4, offset
fadd r1, r2, r3

其中,load指令将偏移值添加到r4的内容中,以形成操作数值的地址。然后,它访问全局内存,并将值放入寄存器r2中。一旦操作数值在r2中,tadd指令通过使用r2和r3中的值执行浮点加法,然后将结果放入r1。由于处理器每个时钟周期只能获取和执行数量有限的指令,因此与没有额外负载的版本相比,具有额外负载的版本可能需要更多的时间来处理。因此,将操作数放在寄存器中可以提高执行速度。

最后,在寄存器中放置操作数值还有另一个微妙的原因。在现代计算机中,从寄存器文件中访问值所消耗的能量至少比从全局内存中访问值的能量低一个数量级。我们将研究现代计算机中访问这两种硬件结构的速度和能量差异。然而,正如我们很快就会了解到的那样,每个线程可用的寄存器数量(请参阅“处理单元和线程”边栏)在今天的GPU中相当有限。我们需要小心,不要过度订阅这种有限的资源。

图4.8显示CUDA设备中的共享内存和寄存器。虽然两者都是片上存储器,但它们在功能和访问成本方面存在显著差异。共享内存被设计为驻留在处理器芯片上的内存空间的一部分。当处理器访问驻留在共享内存中的数据时,它需要执行内存 加载操作,类似于访问全局内存中的数据。**然而,由于共享内存驻留在芯片上,因此可以以比全局内存更低的延迟和更高的吞吐量访问它。**由于需要执行负载操作,共享内存的延迟比寄存器更长,带宽更低。在计算机架构术语中,共享内存是scratchpad memory的一种形式。
在这里插入图片描述
CUDA中共享内存和寄存器的一个重要区别是,驻留在共享内存中的变量可以被块中的所有线程访问,而寄存器数据对线程是私有的共享内存旨在支持块中线程之间高效、高带宽的数据共享。如图4.8所示,CUDA设备SM通常使用多个处理单元,以允许多个线程同时进行(请参阅处理单元和线程边栏)。块中的线程可以分布在这些处理单元中。因此,这些CUDA设备中共享内存的硬件实现通常旨在允许多个处理单元同时访问其内容,以支持块中线程之间的高效数据共享。我们将学习几种重要类型的并行算法,这些算法可以从线程之间的这种高效数据共享中受益匪浅。

处理单元和线程
现在我们已经引入了冯·诺伊曼模型,我们准备讨论线程的实现方式。现代计算机中的线程是在冯·诺伊曼处理器上执行程序的状态。回想一下,线程由程序的代码、正在执行的代码中的特定点以及其变量和数据结构的值组成。
在基于冯·诺伊曼模型的计算机中,程序的代码存储在内存中。PC跟踪正在执行的程序的特定点。IR保存从点执行中获取的指令。寄存器和内存保存变量和数据结构的值。
现代处理器旨在允许上下文切换,其中多个线程可以通过轮流取得processor来分时共享处理器。通过仔细保存和恢复PC值以及寄存器和内存的内容,我们可以暂停线程的执行,然后稍后正确地恢复线程的执行。
一些处理器提供多个处理单元,允许多个线程同时进行。图4.8显示了单指令、多数据设计风格,其中多个处理单元共享PC和IR。在此设计下,所有线程都通过在程序中执行相同的指令来同时进行。

现在应该很清楚,寄存器、共享内存和全局内存具有不同的功能、延迟和带宽。因此,必须理解声明变量的过程,以便它驻留在预期的内存类型中。表4.1展示了将程序变量声明为各种内存类型的CUDA语法。每个这样的声明还给其声明的CUDA变量一个范围和生命周期范围标识了可以访问变量的线程范围:仅单个线程、块的所有线程或所有网格的所有线程。如果变量的范围是单个线程,则将为每个线程创建变量的私有版本;每个线程只能访问其变量的私有版本。为了说明,如果一个内核声明一个范围为线程的变量,并且它以一百万个线程启动,则将创建该变量的一百万个版本,以便每个线程初始化并使用自己的变量版本。
在这里插入图片描述

Lifetime表示变量可供使用时程序执行持续时间的部分:在内核执行内或整个应用程序中。如果变量的生命周期在内核执行范围内,则必须在内核函数主体中声明,并且只能由内核代码使用。如果内核被多次调用,则这些调用中不会保持变量的值。每次调用都必须初始化变量才能使用它们。同时,如果变量的生命周期持续到整个应用程序中,则必须在任何函数体之外声明。这些变量的内容在整个应用程序执行过程中保持不变,并可供所有内核使用。

我们将不是数组或矩阵的变量称为标量变量。如表4.1所示,内核和设备函数中声明的所有自动标量变量都被放入寄存器中。这些自动变量的范围在单个线程中。当内核函数声明自动变量时,为执行内核函数的每个线程生成该变量的私有副本。当线程终止时,其所有自动变量也不再存在。在图4.1中,变量blurRow、blurcol、curRow、curCol、像素和pixval是自动变量,属于此类别。请注意,访问这些变量的速度非常快且并行;但是,在硬件实现中,必须小心不要超过寄存器存储的有限容量。使用大量寄存器可能会对分配给每个SM的活动线程数量产生负面影响。我们将在第5章,性能考虑中讨论这一点。

**自动数组变量不存储在寄存器中。相反,它们存储在全局内存中,可能会产生长时间的访问延迟和潜在的访问拥塞。****与自动标量变量类似,这些数组的范围仅限于单个线程;即为每个线程创建并使用每个自动数组的私有版本。一旦线程终止其执行,其自动数组变量的内容也不复存在。**根据我们的经验,自动数组变量很少用于内核函数和设备函数。

如果变量声明前面有“Shared”(每个”由两个“”字符组成)关键字,则在CUDA中声明一个共享变量。也可以在声明中添加__shared__”关键字前面的可选的__device",以实现相同的效果。此类声明通常位于内核函数或设备函数中。**共享变量驻留在共享内存中。共享变量的范围位于线程块内;即块中的所有线程都看到共享变量的相同版本。**在内核执行期间,为每个线程块创建并使用共享变量的私有版本。共享变量的生命周期在内核的持续时间内。当内核终止其执行时,其共享变量的内容将不复存在。如前所述,共享变量是块内线程相互协作的有效手段。从共享内存中访问共享变量的速度非常快且高度并行。CUDA程序员经常使用共享变量来保存在内核执行阶段大量使用的gobal内存数据部分。可能需要调整算法,以创建严重关注全局内存数据的一小部分的执行阶段,正如我们将在第4.4节中用矩阵乘法演示的那样。

如果变量声明前面有关键字“constant”(每个由两个“_”字符组成),则它在CUDA中声明一个常量变量。可选的 _device“关键字也可以在“constant”前面添加,以实现相同的效果。常量变量的声明必须在任何函数体之外常量变量的范围跨越所有grids,这意味着所有网格中的所有线程都看到常量变量的相同版本常量变量的生命周期是整个应用程序的执行时间。常量变量通常用于为内核函数提供输入值的变量。常量变量存储在全局内存中,但为了高效访问而缓存。有了适当的访问模式,访问恒定内存是极其快速和并行的。目前,应用程序中常量变量的总大小限制为65,536字节。输入数据量可能需要划分以适应此限制,正如我们将在第7章《并行模式:卷积》中说明的那样。

声明前面只有关键字“device(每个”“由两个”字符组成)的变量是一个全局变量,将放置在全局内存中。对全局变量的访问很慢。通过相对较新的设备中的缓存,访问全局变量的延迟和吞吐量得到了改善。全局变量的一个重要优势是,它们对所有内核的所有线程都是可见的。它们的内容也在整个执行过程中持续存在。因此,全局变量可以用作线程跨块协作的手段。然而,在访问全局内存时,在来自不同线程块的线程之间同步或确保跨线程的数据一致性的唯一简单方法是终止当前内核执行。因此,全局变量通常用于将信息从一个内核调用传递到另一个内核调用。

在CUDA中,指针用于指向全局内存中的数据对象。指针使用在内核和设备函数中以两种方式出现:(1)如果对象由主机函数分配,则指向对象的指针由cudaMalloc初始化,并可以作为参数传递给内核函数(例如,图4.3中的参数M、N和P)和(2)全局内存中声明的变量的地址分配给指针变量。为了说明,内核函数中的语句{float* ptr= &GlobalVar;}将GlobalVar的地址分配到自动指针变量ptr中。读者应参考CUDA编程指南,了解在其他内存类型中使用指针。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/234230.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python私有变量的定义与访问

class Student():def __init__(self, name, age):self.name nameself.age ageself.__score 0def marking(self, score):if score < 0:return 分数不能为0self.__score scoreprint(self.name 同学本次得分是: str(self.__score)) def __talk(self): # 私有的类可通过在…

Python爬虫-爬取豆瓣Top250电影信息

&#x1f388; 博主&#xff1a;一只程序猿子 &#x1f388; 博客主页&#xff1a;一只程序猿子 博客主页 &#x1f388; 个人介绍&#xff1a;爱好(bushi)编程&#xff01; &#x1f388; 创作不易&#xff1a;喜欢的话麻烦您点个&#x1f44d;和⭐&#xff01; &#x1f388;…

Wargames与bash知识12

Wargames与bash知识12 Bandit20 关卡提示&#xff1a; 主目录中有一个setuid二进制文件&#xff0c;它执行以下操作&#xff1a;它在您指定为命令行参数的端口上连接到localhost。然后&#xff0c;它从连接中读取一行文本&#xff0c;并将其与前一级别的密码&#xff08;band…

java: 5-4 while循环

文章目录 1. while循环1.1 基本语法1.2 流程图![请添加图片描述](https://img-blog.csdnimg.cn/direct/902ee10622a74b689f18eff6b4a2a61e.png)1.3 练习1.4 细节1.5 练习题 1. while循环 1.1 基本语法 1.2 流程图 1.3 练习 输出 10 句 你好,韩顺平教育。 public class var0…

使用 dbgate 在 sealos 上完美管理 mysql pgsql 等数据库

先登录 sealos 创建数据库&#xff0c;可以创建个 pgsql: 再到模版市场启动 dbgate: 配置数据库的连接信息&#xff0c;即可搞定收工 sealos 以kubernetes为内核的云操作系统发行版&#xff0c;让云原生简单普及 laf 写代码像写博客一样简单&#xff0c;什么docker kubernete…

echarts - xAxis.type设置time时该如何使用formatter的分级模板

echarts 文档中描述了x轴的多种类型 一、type: ‘value’ ‘value’ 数值轴&#xff0c;适用于连续数据。 此时x轴数据是从零开始&#xff0c;有数据大小的区分。 【注意】 因为xAxis.data是为category服务的&#xff0c;所以xAxis.data里面设置的数据无效。 二、type: ‘ca…

机器学习 —— 自用整理期末复习笔记

一、绪论 机器学习术语 假设空间 p5 监督学习&#xff08;supervised learning&#xff09;的任务是学习一个模型&#xff0c;使模型能够对任意给定的输入&#xff0c;对其相应的输出做出一个好的预测。模型属于由输入空间到输出空间的映射的集合&#xff0c;这个集合就是假设空…

C# 自定义配置文件序列化生成+文件格式错误自动回档

文章目录 前言选择Xml简单的Xml使用测试用例简单的写简单的读简单的生成配置修改配置类测试用例运行结果对比 代码逻辑封装逻辑示意封装好的代码测试生成配置文件格式错误测试使用默认值覆盖来解决问题 配置文件人为修改错误如何解决解决方案代码测试用例运行结果 代码封装总结…

Redis 过期删除策略

常见的三种过期删除策略&#xff1a; 定期删除&#xff1b;惰性删除&#xff1b;定时删除&#xff1b; 定期删除策略 每隔一段时间「随机」从数据库中取出一定数量的 key 进行检查&#xff0c;并删除其中的过期key。 定期删除的实现在 expire.c 文件下的 activeExpireCycle …

Python 使用input函数从键盘输入数据

在Python中&#xff0c;input()函数可以从键盘获取用户的输入数据。当我们使用input()函数时&#xff0c;会暂停程序的执行&#xff0c;等待用户输入数据&#xff0c;并将用户输入的数据作为字符串返回。 如&#xff1a; name input("请输入你的姓名&#xff1a;"…

[蓝桥杯学习] 树状数组的二分

要解决这个问题&#xff0c;插入和删除可以用STL实现&#xff0c;2操作如果用树状数组实现的话&#xff0c;将数的值作为树状数组的下标&#xff0c;即值域。 树状数组有两种操作&#xff0c;一个是更新某点的值&#xff0c;另一个是求区间和。 mid (lr)/2 &#xff0c;求和 …

气缸功能块(SMART PLC梯形图代码)

有关气缸功能块的更多介绍,可以参考下面链接文章: https://rxxw-control.blog.csdn.net/article/details/125459568https://rxxw-control.blog.csdn.net/article/details/125459568CODESYS平台双通气缸功能块 https://rxxw-control.blog.csdn.net/article/details/12544822…

TypeScript 和 jsdom 库创建爬虫程序示例

TypeScript 简介 TypeScript 是一种由微软开发的自由和开源的编程语言。它是 JavaScript 的一个超集&#xff0c;可以编译生成纯 JavaScript 代码。TypeScript 增加了可选的静态类型和针对对象的编程功能&#xff0c;使得开发更加大规模的应用容易。 jsdom 简介 jsdom 是一个…

第10课 实现多对多音视频会议功能

本课对应文件下载链接&#xff08;非源码&#xff09;&#xff1a;https://download.csdn.net/download/XiBuQiuChong/88717642 在前两节课&#xff0c;我们将推流端与播放端合并为一对一音视频聊天功能并解决了关键的回声问题&#xff0c;在此基础上&#xff0c;我们可以进一…

1876_电感的特性小结

Grey 全部学习内容汇总&#xff1a; GitHub - GreyZhang/g_hardware_basic: You should learn some hardware design knowledge in case hardware engineer would ask you to prove your software is right when their hardware design is wrong! 1876_电感的特性小结 主要是…

无法找到 WindowsKernelModeDriver10.0 的生成工具

无法找到 WindowsKernelModeDriver10.0 的生成工具(平台工具集 “WindowsKernelModeDriver10.0”)。若要使用 WindowsKernelModeDriver10.0 生成工具进行生成&#xff0c;请安装 WindowsKernelModeDriver10.0 生成工具。或者&#xff0c;可以升级到当前 Visual Studio 工具&…

2024年,前端必会的console骚操作

调试。程序员们努力地避免的东西,只为在代码中制造更多的错误。 编写无错误的代码是即使是最好的程序员也会觉得难以实现的。这就是为什么你应该总是调试代码。 而调试JavaScript代码的最好方法之一就是了不起的console.log()。除此之外,还有更好的方法。 这也正是本文的重点…

基于apache的http文件服务配置

背景&#xff1a; 公司的产品使用的第三方模组可以OTA&#xff0c;厂家提供的是window开启软件&#xff0c;这样就可以在本机做http下载服务器&#xff0c;然后使用端口映射的方式&#xff0c;公开到外网&#xff0c;这样就可以进行4G网络访问内网服务器了。但这个有个弊端&am…

【算法每日一练]-dfs bfs(保姆级教程 篇8 )#01迷宫 #血色先锋队 #求先序排列 #取数游戏 #数的划分

目录 今日知识点&#xff1a; 使用并查集映射点&#xff0c;构造迷宫的连通块 vis计时数组要同步当回合的处理 递归求先序排列 基于不相邻的取数问题&#xff1a;dfs回溯 n个相同球放入k个相同盒子&#xff1a;dfs的优化分支暴力 01迷宫 血色先锋队 求先序排列 取数游…

Unity添加所有场景到BuildSettings

Unity添加所有场景到BuildSettings using UnityEngine; using UnityEditor; using System.Collections.Generic; using System.IO; public class Tools : Editor {[MenuItem("Tools/添加所有场景到BuildSettings")]static void CheckSceneSetting(){List<string&…