神经网络硬件加速器-DPU分析

神经网络硬件加速器-DPU分析

news/2025/1/6 3:05:56/文章来源:https://blog.csdn.net/azhgul/article/details/133918687

一 DPU概述

DPU是专为卷积神经网络优化的可编程引擎，其使用专用指令集，支持诸多卷积神经网络的有效实现。

1、关键模块

卷积引擎：常规CONV等
ALU：DepthwiseConv
Scheduler：指令调度分发
Buffer Group：片上数据缓存
Data Mover：高速数据通道

2、特性

3、工作流程

阶段一：上电后，DPU将指令从外部DRAM加载到片上，译码并分发至各个模块；并根据指令通过DMA将相应权重和输入特征图加载至片上缓存
阶段二：计算引擎根据调度算法将所需数据加载至计算阵列中，通过并行计算引擎完成计算任务
阶段三：一旦完成当。前层计算任务，则需要将输出特征图通过DMA写回片外DRAM，然后开启下一层计算任务。进而实现整个网络的逐层加速计算

二设计分析

DPU通过组合多种并行度来搭配多种卷积架构，DPU卷积架构包括三个维度的并行度：像素并行度/输入通道并行度/输出通道并行度（通常输入通道并行度=输出通道并行度）。

1、并行度

像素并行度：PP

输入通道并行度：ICP

输出通道并行度：OCP

2、计算模式

数据排布格式猜测大致为：NHWC

计算模式：

3、架构设计

DPU计算架构设计如下图红色方框部分

CONV计算阵列：计算阵列包括P个PE，每个PE用于完成P个像素并行度计算；每个PE包含OCP个计算阵列，每个计算阵列包含ICP个MACs，分别完成输出通道并行/输出通道并行的卷积计算。

单个计算阵列中包含多个乘法器单元，加法树，非线性计算采用流水线方式设计，通过复制OCP个并行流水线，完成OCP并行度的输出通道卷积运算。也包含任意尺寸的池化、逐元素、尺寸变换、全连接等

Memory POOL：缓存池根据相关专利，为统一缓存池，与传统的输入缓冲区-计算核阵列-输出缓存区结构不同，其采用统一的缓存池，多通道数据读写调度单元设计。DPU根据不同网络不同层的特点，动态申请、分配来使用相应的缓存空间，最大化利用片上缓存资源。

卷积计算单元和ALU可以脱离顺序执行的流水线限制而彼此独立，同时可以保证各计算单元的数据吞吐率，有效提升计算模块的灵活性和并行度。

4、指令集

DPU采用多指令多数据流架构，包含指令类型如下：

LOAD：数据加载
SAVE：数据缓存
CONV：卷积计算，包括常规卷积/转置卷积等
MISC：逐通道卷积等

具有以下特点：

不同类别指令并行执行
相同类别指令串行执行
不同类别指令间存在相互依赖
依赖关系不应存在死锁

指令优化：

将访存和计算并行，提高计算单元利用率
通过调整tile策略和大小，优化系统访存

指令字段包括：操作码（区分不同指令类型）、依赖码（不同类型指令集安存在并行可能性）、指令参数（具体指令功能描述）

待补充。。。

三参考文献

[1] 深鉴相关专利

[2] 清华大学NICS-EFC组相关paper

[3]XILINX DPU相关datasheet

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/162939.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Kafka三种认证模式，Kafka 安全认证及权限控制详细配置与搭建

Kafka三种认证模式，Kafka 安全认证及权限控制详细配置与搭建

Kafka三种认证模式，Kafka 安全认证及权限控制详细配置与搭建。 Kafka三种认证模式使用kerberos认证 bootstrap.servers=hadoop01.com:9092,hadoop02.com:9092,hadoop03.com:9092,hadoop04.com:9092 security.

阅读更多...

信创办公–基于WPS的Word最佳实践系列（图文环绕方式）

信创办公–基于WPS的Word最佳实践系列（图文环绕方式）

信创办公–基于WPS的Word最佳实践系列 （图文环绕方式） 目录应用背景操作步骤1、打开布局选项中图文环绕方式的方法2、图文环绕三大类型应用背景在Word中，对文字和图片进行排版时，采用各种不同的图片与文字组合效果能够使页面…

阅读更多...

php 遍历PHP数组的7种方式

php 遍历PHP数组的7种方式

在PHP中，遍历数组有多种方式可以选择。以下是最常用的几种方式： 使用foreach循环 $array array("apple", "banana", "orange"); foreach($array as $value){echo $value . "<br>"; } 输出结果&#xff…

阅读更多...

【数组的使用续篇】

【数组的使用续篇】

文章目录以数组的形式打印数组打印方法：Arrays.toString(数组名) 数组排序大小排序方法是 Arrays.sort(数组名) 创建一个自己的打印数组的方法自己创建一个冒泡排序两数之间交换方法逆置数组打印核心思路还是 i 和 j 交换总结以数组的形式打印数组打印方法&am…

阅读更多...

浅析“代码可视化” | 京东云技术团队

浅析“代码可视化” | 京东云技术团队

1.什么是代码可视化？ Code visualization is the process of creating graphical representations of source code to help understand and analyze it. 代码可视化是创建源代码的图形表示以帮助理解和分析它的过程。个人理解：通过使用图形化手段&#…

阅读更多...

计算机保研推免面试复习大纲（数学+408）

计算机保研推免面试复习大纲（数学+408）

目录线性代数概率论高等数学信号与系统离散数学操作系统计算机网络计算机组成数据结构算法编译原理C杂项线性代数怎么求逆矩阵逆矩阵： A A − 1 E AA^{-1}E AA−1E，伴随矩阵： A A ∗ A ∗ A ∣ A ∣ E AA^{*}A^{*}A|A|E AA∗A∗A∣A∣…

阅读更多...

Top 10 数据恢复工具，可从iPhone 和 iPad 恢复数据

Top 10 数据恢复工具，可从iPhone 和 iPad 恢复数据

您是否正在寻找最好的 iPad 恢复软件，但不知道哪个选项最好？没有什么可担心的。本文将为您提供有关根据文件类型、设备兼容性和数据丢失原因等因素选择合适的 iPad 恢复软件的提示。此外，前 10 名提到的恢复软件是安全可靠的。第 1 部分、iP…

阅读更多...

上海亚商投顾：沪指震荡调整转基因概念股逆势大涨

上海亚商投顾：沪指震荡调整转基因概念股逆势大涨

上海亚商投顾前言：无惧大盘涨跌，解密龙虎榜资金，跟踪一线游资和机构资金动向，识别短期热点和强势个股。一.市场情绪沪指昨日低开低走，深成指、创业板指均跌超1%，双双创出年内新低。转基因概念股逆势大涨…

阅读更多...

开源Vue盲盒商城4.0源码/网页盲盒源码/前端uniapp后端thinkphp+安装教程/亲测

开源Vue盲盒商城4.0源码/网页盲盒源码/前端uniapp后端thinkphp+安装教程/亲测

源码简介： 开源Vue盲盒商城4.0源码，它是打包小程序app的网页盲盒源码,亲测可用，它是采用vueTP5框架开发开源盲盒网站源码，附带了安装教程。简单测试过了，可以使用，大家可以自测下。前端uniapp后端think…

阅读更多...

如何使用Python给图片添加水印

如何使用Python给图片添加水印

目录一、安装Pillow库二、导入Pillow库和需要用到的模块三、添加水印四、调用函数并设置参数五、需要注意的方面总结在Python中，我们可以使用Pillow库来处理图像，包括添加水印。Pillow是Python中最流行的图像处理库之一，它支持多…

阅读更多...

搭建Pytorch的GPU环境超详细

搭建Pytorch的GPU环境超详细

效果 1、下载和安装VS2019 https://visualstudio.microsoft.com/zh-hans/vs/older-downloads/ 登录需要用户名和密码安装后需要联网下载组件的，安装的时候要勾选使用C++的桌面开发 2、下载和安装显卡驱动查看自己的显卡型号从英伟达下载和安装最新驱动

阅读更多...

【面试经典150 | 区间】插入区间

【面试经典150 | 区间】插入区间

文章目录 Tag题目解读题目来源解题思路方法一：合并区间方法二：模拟其他语言python3 写在最后 Tag 【模拟】【数组】题目解读给定一个含有多个无重叠区间的数组，并且数组已经按照区间开始值升序排序。在列表中插入一个新的区间&#xff0…

阅读更多...

【nginx学习笔记】

【nginx学习笔记】

1.正向代理：代理的是客户端，一般有明确的访问对象比如：我现在通过v-p-n去访问YouTube，那么就是正向代理。 2.反向代理：代理的是服务器最常见的就是web中，nginx去代理一群后端的服务器。 3.负载均衡&…

阅读更多...

solidworks 2024新功能之-打造更加智能的工作硕迪科技

solidworks 2024新功能之-打造更加智能的工作硕迪科技

SOLIDWORKS 2024 的新增功能 SOLIDWORKS 的每个版本都致力于改进您的工作流程，使您常用的工具尽可能快速高效地运作。此外，SOLIDWORKS 2024 可以通过量身定制的解决方案扩展您的工具集，并使您能够通过 Cloud Services 轻松将您的设计数据连接…

阅读更多...

【Linux进行时】进程控制

【Linux进行时】进程控制

1.进程创建： 1.1fork函数在linux中fork函数时非常重要的函数，它从已存在进程中创建一个新进程。新进程为子进程，而原进程为父进程。 \#include <unistd.h> pid_t fork(void); 返回值：子进程中返回0，父进程返…

阅读更多...

APP开发成本的影响因素

APP开发成本的影响因素

在温州或中国任何地方开发APP的成本取决于多个因素，包括应用的规模、功能、设计、复杂性以及所需的技术和人力资源。以下是一些可能影响APP开发成本的主要因素，希望对大家有所帮助。北京木奇移动技术有限公司，专业的软件外包开发公司&#xf…

阅读更多...

kvm 不同存储池中卷的复制 virsh vol-create-from 的简单使用

kvm 不同存储池中卷的复制 virsh vol-create-from 的简单使用

virsh vol-create-from 命令介绍主要用的就是这四个参数 virsh vol-crate-from --help使用方式 sdbpool : 要复制到的存储池名称 (这个是最终文件粘贴的池) virsh pool-list/opt/vol01.xml ： 这个是你将要复制卷的xml // sdcvol1： 复制目标 // 导…

阅读更多...

外汇天眼：外汇投资入门必看！做好3件事，任何人都能提高交易胜率

外汇天眼：外汇投资入门必看！做好3件事，任何人都能提高交易胜率

近年来外汇市场愈来愈热络，许多投资人看准世界金融变化的趋势，纷纷开始入场布局，期望把握行情大赚一笔。如果你之前没有做过外汇交易，建议最好先透过「外汇天眼学院」学习各种相关的知识与技术分析，等到对外汇有一定的…

阅读更多...

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

中国模式识别与计算机视觉大会｜多模态模型及图像安全的探索及成果

目录前言一、多模态模型进展与探索1、GPT-4V (多模态)测试2、LLM时代文档图像处理技术趋势3、LLM时代文档图像技术机会4、MLLM时代文档图像处理技术趋势5、知名文档图像大模型OCR性能分析二、图像安全1、篡改种类2、系统架构3、文档图像处理开放平台4、AIGC假图鉴别5、图像篡…

阅读更多...

计算机网络第2章-CDN（4）

计算机网络第2章-CDN（4）

视频流和内容分发网 HTTP流和DASH 在HTTP流中，视频只是存储在HTTP服务器中作为一个普通的文件，每个文件有有一个特定的URL。当用户要看视频时，客户与服务器之间创建一个TCP连接并发送HTTP GET请求。 HTTP流具有严重缺陷，即所有…

阅读更多...

最新文章

推荐文章