计算机体系结构期末复习3:GPU架构及控制流问题

目录

一、GPU设计思路

1.简化流水线、增加核数

2.单指令多线程(SIMT)

3.同时驻留大量线程

4.总思路:多线程+单指令多线程 

二、GPU的控制流问题

 1.什么是控制流问题

2.怎么应对分支分歧


一、GPU设计思路

1.简化流水线、增加核数

2.单指令多线程(SIMT)

多个核心共用一条指令。

用Nvidia的术语描述就是:

  • 多个threads,每个都有自己的寄存器
  • 一组共同发射的线程称为一个wrap(问:执行某代码段需要多少个warps?即执行该代码段需要发射多少次线程。循环次数/核心个数。)
  • 所有一块发射的threads执行同一条指令
  • 每个流水线称为一个SM(streaming multiprocessor)

3.同时驻留大量线程

在单核心上维护远多于执行单元的线程数,以实现细粒度的调度掩盖高延迟的操作。

 通俗理解多线程

采用细粒度多线程,流水线每周期读入不同线程的指令(即读取不同PC)。因为这些指令来自不同的线程,所以不存在数据相关,也不会因为数据相关而引入阻塞。

假设有八个线程。需要1个全局PC+8个线程PC,8组context(通用寄存器)。

4.总思路:多线程+单指令多线程 

  • 每个SM支持几十个wraps.(几十组PC,几十组互不相关的指令)。每周期取一条指令,来自一个warp.
  • 每个wrap上有32个线程.即一条指令可分担到32个线程进行处理。

二、GPU的控制流问题

 1.什么是控制流问题

1)当GPUwarp中的线程,分支到不同的执行路径时,会产生分支分歧。

ex.假设GPU的某个warp每组有64个线程,即GPU有64个核心。执行下面代码。

for(int i=0;i<1024;i++)
{if(i%2==0){a[i]++;}else{a[i]--;}
}

可以看到循环内分别有三条指令:A.i%2==0  B.a[i]++  C.a[i]--

对于第一条指令,warp中的64个线程都可以执行(i%2==0)的操作。

对于第二条指令,warp中的32个线程可以执行(a[i]++)的操作。由于每个周期只能执行一条指令,wrap中的剩下32个线程被迫停歇。第三条指令同理,也是只有一半的线程在执行指令。

问1:执行该代码段需要多少个wraps?

答1:一个warp就是GPU中一组发射的共同线程。1024/64=16.

问2:执行该代码段,GPU的利用率是多少?

答2:(1+0.5+0.5)/3=66.7%

2.怎么应对分支分歧

1)工作流程

每个warp用stack存储不跳转分支的PCs和掩码

遇到分支时

– 将当前掩码入栈

– 将不跳转分支的掩码和PC入栈

– 设置当前掩码为跳转分支的掩码

分支执行完时

– 将不跳转分支的掩码和PC出栈,并执行分支

不跳转分支执行完时

– 将分支之前的源掩码弹出

如果一个分支的掩码都是0,跳过该代码块

注:若掩码第i位为1,代表wrap中的第i个线程执行该指令;为0代表不执行。如果一个分支的掩码都是0,跳过该代码块。 

2)完整实例

ex1.假设每个wrap有四个线程,初始掩码为1111.执行下面的代码段:

//原掩码:1111
if (m[i] != 0) {    //指令m[i] != 0执行后:1100if (a[i] > b[i]) {    .//指令a[i] > b[i]执行后:1000y[i] = a[i] - b[i];    //指令C:} else {//指令a[i] > b[i]对应的不跳转分支:0100y[i] = b[i] - a[i];    }
} else {    //指令m[i] != 0对应的不跳转分支掩码:0011y[i] = 0;    
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/498913.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三大行业案例:AI大模型+Agent实践全景

本文将从AI Agent和大模型的发展背景切入&#xff0c;结合51Talk、哈啰出行以及B站三个各具特色的行业案例&#xff0c;带你一窥事件驱动架构、RAG技术、人机协作流程&#xff0c;以及一整套行之有效的实操方法。具体包含内容有&#xff1a;51Talk如何让智能客服“主动进攻”&a…

Vben5登录过期无法再次登录问题,http状态码

个人博客&#xff1a;无奈何杨&#xff08;wnhyang&#xff09; 个人语雀&#xff1a;wnhyang 共享语雀&#xff1a;在线知识共享 Github&#xff1a;wnhyang - Overview 前言 最近在做项目前端&#xff0c;使用的https://doc.vben.pro/&#xff0c;在登录过期时出现了无法…

Doris安装部署

Doris 概述 Apache Doris由百度大数据部研发&#xff08;之前叫百度 Palo&#xff0c;2018年贡献到 Apache 社区后&#xff0c;更名为 Doris &#xff09;&#xff0c;在百度内部&#xff0c;有超过200个产品线在使用&#xff0c;部署机器超过1000台&#xff0c;单一业务最大可…

基于单片机的多功能视力保护器(论文+源码)

1.系统设计 多功能视力保护器在设计过程中能够对用户阅读过程中的各项数据信息进行控制&#xff0c;整体设计分为亮种模式&#xff0c;分别是自动模式&#xff0c;手动模式。在自动模式的控制下&#xff0c;当单片机检测当前光照不强且有人时就开启LED灯&#xff0c;并且会根据…

如何在 Ubuntu 22.04 上部署 Nginx 并优化以应对高流量网站教程

简介 本教程将教你如何优化 Nginx&#xff0c;使其能够高效地处理高流量网站。 Nginx 是一个强大且高性能的 Web 服务器&#xff0c;以其高效处理大量并发连接的能力而闻名&#xff0c;这使得它成为高流量网站的流行选择。 正确优化 Nginx 可以显著提高服务器的性能&#xff0…

【持续更新中】transformer详解和embedding大模型

这里记录一下自己学习embedding大模型的记录&#xff0c;涉及到transformer和bert这些。 一切都可以编码&#xff0c;比如说图片是三原色 背景介绍 训练集和测试集的分&#xff0c;无监督学习&#xff0c;现在基本都是使用无监督学习&#xff0c;有监督学习的话参考计算机视觉…

csrf跨站请求伪造(portswigger)无防御措施

前言&#xff1a;基础csrf学习&#xff08;没有任何防御措施&#xff09; 内容来自portswigger&#xff0c;一个靶场练习&#xff0c;国外的网站&#xff0c;可能需要翻墙 要使 CSRF 攻击成为可能&#xff0c;必须满足三个关键条件&#xff1a; 相关操作。应用程序中存在攻击…

cocos creator 3.x版本如何添加打开游戏时首屏加载进度条

前言 项目有一个打开游戏时添加载入进度条的需求。这个功能2.X版本是自带的&#xff0c;不知为何在3.X版本中移除了。 实现 先说一下解决思路&#xff0c;就是在引擎源码加载场景的位置插入一个方法&#xff0c;然后在游戏入口HTML处监听即可。 1.找到对应源码脚本 在coco…

Zookeeper在中间件的应用和在Spring Boot业务系统中实现分布式锁和注册中心的解决方案

前言 Zookeeper是什么&#xff1f; ZooKeeper 是一个开放源码的分布式协调服务&#xff0c;它是集群的管理者&#xff0c;监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终&#xff0c;将简单易用的接口和性能高效、功能稳定的系统提供给用户。 分布式应…

idea报错:There is not enough memory to perform the requested operation.

文章目录 一、问题描述二、先解决三、后原因&#xff08;了解&#xff09; 一、问题描述 就是在使用 IDEA 写代码时&#xff0c;IDEA 可能会弹一个窗&#xff0c;大概提示你目前使用的 IDEA 内存不足&#xff0c;其实就是提醒你 JVM 的内存不够了&#xff0c;需要重新分配。弹…

Anaconda+PyTorch(CPU版)安装

1.Anaconda下载 Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror 如果已安装python&#xff0c;下载之前要彻底删除之前下载的python 2.Anaconda安装 3.添加环境变量 //根据实际安装路径进行更改 D:\Anaconda D:\Anaconda\Scripts D:\…

使用apisix+oidc+casdoor配置微服务网关

一、服务架构图 二、安装配置 1. 安装配置apisix (1). 快速启动及验证&#xff1a; curl -sL https://run.api7.ai/apisix/quickstart | sh该命令启动 apisix-quickstart 和 etcd 两个容器&#xff0c;APISIX 使用 etcd 保存和同步配置。APISIX 和 etcd 容器使用 Docker 的 …

【数据仓库】hadoop3.3.6 安装配置

文章目录 概述下载解压安装伪分布式模式配置hdfs配置hadoop-env.shssh免密登录模式设置初始化HDFS启动hdfs配置yarn启动yarn 概述 该文档是基于hadoop3.2.2版本升级到hadoop3.3.6版本&#xff0c;所以有些配置&#xff0c;是可以不用做的&#xff0c;下面仅记录新增操作&#…

STM32中断详解

STM32中断详解 NVIC 中断系统中断向量表相关寄存器中断优先级中断配置 外部中断实验EXTI框图外部中断/事件线映射中断步骤初始化代码实现 定时器中断通用定时器相关功能标号1&#xff1a;时钟源标号 2&#xff1a;控制器标号 3&#xff1a;时基单元 代码实现 NVIC 中断系统 STM…

常见的中间件漏洞

1.tomcat 1.1 CVE-2017-12615(put上传) 当在Tomcat的conf&#xff08;配置目录下&#xff09;/web.xml配置文件中添加readonly设置为false时&#xff0c;将导致该漏洞产 ⽣&#xff0c;&#xff08;需要允许put请求&#xff09; , 攻击者可以利⽤PUT方法通过精心构造的数据包…

【JAVA】神经网络的基本结构和前向传播算法

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c; 忍不住分享一下给大家。点击跳转到网站 学习总结 1、掌握 JAVA入门到进阶知识(持续写作中……&#xff09; 2、学会Oracle数据库入门到入土用法(创作中……&#xff09; 3、手把…

Qt 12.28 day3

作业&#xff1a; 1】 思维导图 2】 在登录界面的登录取消按钮进行以下设置&#xff1a; 使用手动连接&#xff0c;将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中&#xff0c;在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中&a…

Ubuntu 20.04.1 LTS搭建nginx + php7.4运行环境

本文基于https://www.rosehosting.com/blog/how-to-install-php-7-4-with-nginx-on-ubuntu-20-04/的翻译和实践记录。 安装 Nginx 默认情况下&#xff0c;最新版本的 Nginx 位于 Ubuntu 20.04 默认存储库中。您可以使用以下命令安装它&#xff1a; apt-get install nginx -y…

【专题】2024年出口跨境电商促销趋势白皮书报告汇总PDF洞察(附原数据表)

原文链接&#xff1a;https://tecdat.cn/?p38722 在当今全球化加速演进、数字经济蓬勃发展的大背景下&#xff0c;跨境电商行业正以前所未有的态势重塑国际贸易格局&#xff0c;成为各方瞩目的焦点领域。 根据亚马逊发布的《2024年出口跨境电商促销趋势白皮书》&#xff0c;…

UE5材质节点Camera Vector/Reflection Vector

Camera Vector相机向量&#xff0c;输出像素到相机的方向&#xff0c;结果归一化 会随着相机移动而改变 Reflection Vector 反射向量&#xff0c;物体表面法线反射到相机的方向&#xff0c;x和y和camera vector相反 配合hdr使用