AI 编译器学习笔记之七四 -- cann接口使用

1、安装昇腾依赖

# CANN发布件地址

https://cmc.rnd.huawei.com/cmcversion/index/releaseView?deltaId=10274626629404288&isSelect=Software&url_data=run

Ascend-cann-toolkit_8.0.T15_linux-aarch64.run

Ascend-cann-nnal_8.0.T15_linux-aarch64.run

Ascend-cann-kernels-910b_8.0.T15_linux.run

# torch_npu (注意版本匹配,torch版本为2.1.0)

https://cmc-szv.clouddragon.huawei.com/cmcversion/index/releaseView?deltaId=10365017745917184&isSelect=Inner

pip install torch_npu-2.1.0.post6.dev20240716-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl

# 下载NLTK data, 参考 https://blog.csdn.net/u010099177/article/details/102900515

# 将nltk_data放到对应conda目录下

2、cann迭代更新非常快,因此查阅时注意版本号的选择

简介-性能分析工具-训练推理开发工具-开发工具-CANN商用版8.0.RC2开发文档-昇腾社区

3、采用优先使用msprof, 但是需要安装Ascend-cann-tookit开发套件包

分包安装: bash Ascend-cann-toolkit_8.0.RC2_linux-aarch64.run --install --install-path=/pathdir

msprof --application="run yourApp" --output=./profile --ascendcl=on --model-execution=on --runtime-api=on --task-time=on --aicpu=on --ai-core=on --aic-mode=task-based --aic-metrics=PipeUtilization --sys-hardware-mem=on

 Ascend PyTorch Profiler接口采集-使用PyTorch框架接口采集-其他采集方式介绍-性能分析工具-开发工具-CANN社区版8.0.RC2.alpha001开发文档-昇腾社区 (hiascend.com)

.json文件可以通过chrome://tracing/打开,W-放大,S-缩小,A-向左,D-向右 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/448179.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习】并行计算(parallel computation)Part2

Asynchronous Parallel Gradient Descent Using Parameter Server 用Parameter Server实现异步并行梯度下降 Parameter Server这种编程模型可以实现异步并行梯度下降,架构采用的是Client-Server,通信方式是Message-passing,同步方式是异步的…

阿里 C++面试,算法题没做出来,,,

我本人是非科班学 C 后端和嵌入式的。在我面试的过程中,竟然得到了阿里​ C 研发工程师的面试机会。因为,阿里主要是用 Java 比较多,C 的岗位比较少​,所以感觉这个机会还是挺难得的。 阿里 C 研发工程师面试考了我一道类似于快速…

2023年4月自考《数据库系统原理》04735试题

目录 一:选择题 二:填空题 三:设计题 四:简答题 五:综合题 一:选择题 1.在数据库系统中,专门用户建立和管理数据的软件是 (书中)P28页 A.DBS B.DB C.DBA D.DBMS 2.通常所说的数据库系统容不包括 (书中)P29页 A.应用程序 B.数据库管理员 C.用户 D.网络环境 …

MD5消息摘要算法学习

MD5(Message Digest Algorithm 5)是一种广泛使用的哈希函数,它用于生成128位的哈希值(也称为消息摘要)。MD5主要用于确保信息的完整性,即可以通过对数据生成的哈希值来验证数据是否被篡改。尽管MD5在过去被…

C嘎嘎入门篇:类和对象(3)

前言: 小编在写完了类和对象的1,2以后,下面紧接着开始类和对象3的学习,这一部分的知识是很重要的,各位读者朋友一定要好好的理解这篇文章,现在,代码时刻到。 目录 1.再探构造函数 前瞻 1.1.再探构造函数的特…

Python 基础的类型和操作符

Python特点 易于学习:Python有相对较少的关键字,结构简单,和一个明确定义的语法,学习起来更加简单。易于阅读:Python代码定义的更清晰。易于维护:Python的成功在于它的源代码是相当容易维护的。一个广泛的…

24.4 基于consul服务发现模式

本节重点介绍 : consul 安装consul go代码注册服务,注销服务,获取服务node_exporter改造为consul服务发现在数量比较大时,在注册服务的时候,关闭check,可以降低consul的压力 consul 安装 准备工作 # 下载consul wge…

软考24.10.15每日一练打卡 - 错题笔记

题目来源:https://ruankaodaren.com/ ##1. M公司将其开发的某软件产品注册商标为S,为确保公司在市场竞争中占据地位,M公司对员工进行了保密约束,此情形下,该公司不享有( 商标权)。 本题题干中提…

打造卓越APP体验:13款界面设计软件推荐

你知道如何选择正确的UI设计软件吗?你知道设计美观的用户界面,及带来良好用户体验的APP,需要什么界面设计软件吗?基于APP界面的功能不同,选择的APP界面设计软件也会有所不同。然而,并不是要把所有APP界面设…

低代码策略量化平台更新|大模型agents生态的一些思考

原创内容第680篇,专注量化投资、个人成长与财富自由。 用户判断星球会员后,会获得10个积分: 当其他用户发布策略,设置为下载需要积分时: 下载策略会扣除相应的积分,扣除的积分属于策略所有者。 策略运行结…

谈谈我的理解:引用计数 vs 可达性分析

前言 在学习垃圾回收机制时,首先需要了解如何判定哪些对象需要被回收,以及如何实现垃圾回收。本文将分享作者对两种常见的垃圾回收判断机制——引用计数法和可达性分析法——的理解与思考,旨在帮助读者更深入地理解这两种机制。 一、引用计数…

结合seata和2PC,简单聊聊seata源码

当前代码分析基于seata1.6.1 整体描述 整体代码流程可以描述为 TM开启全局事务,会调用TC来获取XID。TC在接收到通知后,会生成XID,然后会将当前全局事务保存到global_table表中,并且返回XID。在获取到XID后,会执行业务…

conda创建的新环境不干净!一定要注意!

总是出现明明是不同的环境,但是总是出现包交叉混用的问题,导致跑很多模型总是出现改了这个环境的包,那个环境又用不了了。就像下面这样,明明激活的是pyskl,安装mediapipe包显示在thwircamera中索引到就显示Requirement…

postgresql 安装

一、下载 PostgreSQL: File Browser 下载地址 PostgreSQL: File Browser 上传到服务器,并解压 二、安装依赖 yum install -y perl-ExtUtils-Embed readline-devel zlib-devel pam-devel libxml2-devel libxslt-devel openldap-devel 创建postgresql 和目录 useradd …

『Mysql集群』Mysql高可用集群之主从复制 (一)

Mysql主从复制模式 主从复制有一主一从、主主复制、一主多从、多主一从等多种模式. 我们可以根据它们的优缺点选择适合自身企业情况的主从复制模式进行搭建 . 一主一从 主主复制 (互为主从模式): 实现Mysql多活部署 一主多从: 提高整个集群的读能力 多主一从: 提高整个集群的…

一、定时器的时钟来源

计数器的时钟选择8个时钟源,可以分成4类: 一、来自RCC的内部时钟TIMx CLK 二、芯片内部其他定时器的触发输入ITR 使用某一个定时器作为另外一个定时器的分频 ITR1、ITR2、ITR3和ITR4 三、外部时钟源模式1: 外部捕获引脚上的边沿信号 TI1FP…

【jeston】torch相关环境安装

参考:玩转NVIDIA Jetson (25)— jetson 安装pytorch和torchvision 我的jeston信息: torch install 安装环境 conda create -n your_env python3.8 conda activate your_envpytorch_for_jeston 安装.whl文件 验证&#xff1…

循环神经网络(Recurrent Neural Network,RNN)

简介:个人学习分享,如有错误,欢迎批评指正。 一. 核心理念 循环神经网络(Recurrent Neural Network,RNN)是一类专门用于处理序列数据的神经网络架构。其独特之处在于能够处理输入序列中元素的时序关系&…

STM32定时器

目录 STM32定时器概述 STM32基本定时器 基本定时器的功能 STM32基本定时器的寄存器 STM32通用定时器 STM32定时器HAL库函数 STM32定时器概述 从本质上讲定时器就是“数字电路”课程中学过的计数器(Counter),它像“闹钟”一样忠实地为处…

41 C 语言共用体:共用体数据类型、共用体变量、访问共用体成员、与结构体的区别

目录 1 什么是共用体 2 共用体与结构体的区别 3 声明共用体类型 4 声明共用体变量 5 共用体内存分析 6 共用体成员的获取和赋值 7 综合案例 7.1 共同体特点演示 7.2 使用共用体存储学生和教师信息 1 什么是共用体 共用体(Union)是一种特殊的数据…