TensorRT及CUDA自学笔记006 PTX、PTX兼容性及二进制兼容性

TensorRT及CUDA自学笔记006 PTX、PTX兼容性及二进制兼容性

PTX定义

  1. PTX是CUDA平台的一种虚拟机器和指令集,可以理解为一种CUDA平台的汇编语言
  2. 使用C编写的CUDA程序首先被转换成PTX指令集,PTX指令在经过优化后再转换为特定GPU架构对应的指令集,nvcc在编译程序时通常需要指定目标虚拟机架构和真实GPU架构
  3. PTX并非物理的GPU,它是对GPU计算能力和特性的抽象定义

PTX作用

  1. 为GPU演化提供稳定的ISA支持
  2. 为应用程序提供与GPU本地指令等效的性能,为上层C程序开发提供与GPU架构无关的ISA支持,这使得我们开发是时可以不用关注硬件层的指令集,专注上层应用开发即可。
  3. 为PTX代码生成器和转换器提供源码级的优化

CUDA定义的虚拟机架构

在这里插入图片描述
compute_x中的x指的是虚拟机架构的计算能力

CUDA定义的GPU架构

在这里插入图片描述
后者是GPU的物理(真实)架构,前者是一种虚拟架构,是在后者的物理的基础上的面向上层的一种抽象的架构。

CUDA将不同的物理架构的GPU抽象为不同计算能力等级的虚拟机架构,这样我们在上层能更好的使用这些GPU,同时,这种方式也提高了代码的兼容性

PTX兼容性

PTX中的某些指令只能在具有较高的计算能力(compute capability)的GPU上才能使用
较低计算能力的PTX可以在同级或更高级的GPU上运行,反之则不行
所以,为保证CUDA程序能充分的发挥GPU计算能力,我们要在代码编译阶段要设置计算能力,设置ptx文件的兼容性,如果设置的低一些,即计算能力要求低一些,那么该代码的兼容性就高一些,能运行的设备就多一些。
.

通过-arch来设置目标计算能力,设置ptx兼容性

nvcc main.cu -ptx
nvcc -arch=compute_50 main.cu -ptx

不指定arch他就会用默认的计算能力等级,-ptx确保生成ptx文件,不指定路径,就会默认使用输入文件的名字并保存在当前目录。

nvcc main.cu -ptx
//
// Generated by NVIDIA NVVM Compiler
//
// Compiler Build ID: CL-33191640
// Cuda compilation tools, release 12.2, V12.2.140
// Based on NVVM 7.0.1
//.version 8.2
.target sm_52
.address_size 64
nvcc -arch=compute_50 main.cu -ptx
//
// Generated by NVIDIA NVVM Compiler
//
// Compiler Build ID: CL-33191640
// Cuda compilation tools, release 12.2, V12.2.140
// Based on NVVM 7.0.1
//.version 8.2
.target sm_50
.address_size 64

二进制兼容性

  1. 二进制代码(binary code)是与特定GPU真实架构相关
  2. 二进制代码从低小代(minor version)到高小代(minor version)兼容,如8.1版本生成的cubin和exe到8.7版本是兼容的
  3. 二进制代码从高小代到低小代不兼容二进制,如8.7版本生成的cubin和exe到8.1版本是不兼容的
  4. 代码在大代间不兼容(major version),如7.x版本生成的cubin和exe和8.x版本是不兼容的

二进制兼容性设置

  1. 二进制兼容性必须和PTX兼容性同时设置
  2. 通常将PTX兼容性设置低、将二进制兼容性设置高
  3. 通过nvcc编译参数-code设置二进制兼容性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/263558.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[electron]官方示例解析

官方例子 github链接 main.js const { app, BrowserWindow } require(electron)说句实话这里的语法是有部分看不懂的。导入模块虽然electron有很多模块。但是这里只是用到了app 和 BrowserWindow function createWindow () {// Create the browser window.const mainWindo…

uni-app 经验分享,从入门到离职(四)——页面栈以及页面跳转的 API(开发经验总结)

文章目录 📋前言⏬关于专栏 🎯什么是页面栈🧩页面跳转方法📌 uni.navigateTo(OBJECT)📌 uni.redirectTo(OBJECT)📌 uni.reLaunch(OBJECT)📌 uni.switchTab(OBJECT)📌 uni.navigateBa…

【嵌入式学习】QT-Day2-Qt基础

1> 思维导图 https://lingjun.life/wiki/EmbeddedNote/20QT 2>登录界面优化 使用手动连接,将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中,在自定义的槽函数中调用关闭函数 将登录按钮使用qt5版本的连接到自定义的槽函数中&#xff…

一台台式电脑的耗电量有多少瓦?你知道吗?

核实后将予以处理。 感谢您为社区和谐做出的贡献。 一般来说,大多数台式电脑的功率在250W左右,也就是每4小时耗一度电。 一般有每小时100W左右的低功耗计算机,也有每小时1000W左右的高功耗计算机。 对于笔记本电脑来说,每小时约为…

Java Web(七)__Tomcat(一)

JavaWeb 服务器 介绍 为什么需要? Web服务器是一个应用程序(软件),对HTTP协议的操作进行封装,使得程序员不必直接对协议进行操作,让Web开发更加便捷。主要功能是"提供网上信息浏览服务"。Web服…

探索视频数据的无限可能,Sora引领生成模型新纪元的技术解读

最近几天,open AI 推出的新的文生视频模型sora再次惊艳AI界,Sora模型近期发布的底层技术报告引起了广泛关注。作为前沿的视频生成与编辑工具,Sora究竟有何独特之处?本文就基于其几乎是文档来对其技术原理进行解读。下面让我们一起…

SSD代码解析

input:(2, 3, 300, 300) backbone:在VGG16的基础上进行改动。取vgg16的conv5_3,在mmdet的实现中没用BN,只有conv、ReLU、maxpool层,conv5_3是第30层,输出大小为(2, 512, 19, 19)。接着用33-s1-p1的maxpool…

【C++】类和对象之拷贝构造函数篇

个人主页 : zxctscl 文章封面来自:艺术家–贤海林 如有转载请先通知 文章目录 1. 前言2. 传值传参和传引用传参3. 概念4. 特征 1. 前言 在前面学习了6个默认成员函数中的构造函数和析构函数 【C】构造函数和析构函数详解,接下来继续往后看拷…

什么是MapReduce

1.1 MapReduce到底是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定…

记一次生产jvm oom问题

前言 jvm添加以下参数,发生OOM时自动导出内存溢出文件 -XX:HeapDumpOnOutOfMemoryError -XX:HeapDumpPath/opt 内存分析工具: MAT, 下载地址:Eclipse Memory Analyzer Open Source Project | The Eclipse Foundation, 注意工具地址…

企业如何定制化“可靠的”系统,实现数字化转型?

二十大提出高质量发展是首要任务,为顺应数字经济时代的发展,数字化转型正不断赋能各行各业。越来越多的企业管理者也意识到数字化转型是帮助企业提升内部运营效率,提升业务开展效率,减低企业成本的有效手段。 那么如何推动企业数字…

论文阅读——SimpleClick

SimpleClick: Interactive Image Segmentation with Simple Vision Transformers 模型直接在VIT上增加交互是分割 用VIT MAE方法训练的预训练权重 用交互式分割方法微调,微调流程: 1、在当前分割自动模拟点击,没有人为提供的点击 受到RITM启发…

马斯克称创建OPENAI是希望开源非营利 但现在却闭源和被微软控制

作为 OPENAI 的联合创始人,埃隆马斯克其实是个坚定的 “反” 人工智能的人,原因是马斯克认为人工智能是人类文明最大的风险之一,应该进行严格监管,至少应该由国家级层面的监管。 2015 年马斯克联合 Sam Altman (OPENAI 现任 CEO)…

智慧城市与数字孪生:共创未来城市新篇章

一、引言 随着科技的飞速发展,智慧城市与数字孪生已成为现代城市建设的核心议题。智慧城市注重利用先进的信息通信技术,提升城市治理水平,改善市民生活品质。而数字孪生则通过建立物理城市与数字模型之间的连接,为城市管理、规划…

springmvc+ssm+springboot房屋中介服务平台的设计与实现 i174z

本论文拟采用计算机技术设计并开发的房屋中介服务平台,主要是为用户提供服务。使得用户可以在系统上查看房屋出租、房屋出售、房屋求购、房屋求租,管理员对信息进行统一管理,与此同时可以筛选出符合的信息,给笔者提供更符合实际的…

IOBR2 更新(学习自备)

IOBR查看其收录的相关基因集(自备)_肿瘤 tme特征 iobr-CSDN博客 IOBR2:多维度解析肿瘤微环境 - 知乎 (zhihu.com) 学习手册:https://iobr.github.io/book/ (里面有详细教程) 系统综合的分析工具(Immuno-Oncology Bi…

【Web】CTFSHOW 常用姿势刷题记录(全)

目录 web801 web802 web803 web804 web805 web806 web807 法一:反弹shell 法二:vps外带 web808 web809 web810 web811 web812 web813 web814 web815 web816 web817 web818 web819 web820 web821 web822 web823 web824 web825…

NXP实战笔记(七):S32K3xx基于RTD-SDK在S32DS上配置ICU输入捕获

目录 1、概述 2、输入捕获SDK配置 2.1、SAIC中断方式 2.2、IPWM或者IPM 1、概述 输入捕获,可以抓取高电平时间、低电平时间、占空比、周期、边沿检测与回调函数、边沿计数(ABZ解码)、时间戳、唤醒中断。 记录一下根据Emios模块实现上述部分…

CSS列表学习2

之前学习了列表&#xff1b;继续熟悉&#xff1b; <!DOCTYPE html> <html> <head> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/><title></title><meta charset"utf-8" /><…

常用显示屏学习——LCD12864(含高级驱动程序)

LCD12864液晶显示屏 屏幕介绍 ① 可显示四行字符&#xff0c;每行可显示8个汉字或者16个数字和字母&#xff1b; ②可串行通信和并行通信&#xff1b; ③ 串口接口管脚信号 通信方法 &#xff08;一&#xff09;八位并行通信方法 &#xff08;二&#xff09;串行通信方法 用…