AI芯片-算力相关介绍

一、参考资料

TOPS(处理器运算能力单位)
芯片的算力到底有什么用?算力是怎么评估的?
NPU架构与算力分析

二、相关介绍

1. FLOPS

FLOPS(floating-point operations per second)表示“每秒所执行的浮点运算次数”。它常被用来估算电脑的执行效能,尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S,代表秒,而不是复数,所以不能省略掉。

1.1 FLOPS换算

1PFLOPS=1024TFLOPS1TFLOPS=1024GFLOPS1GFLOPS=1024MFLOPS

一个MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算;

一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算;

一个TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算;

一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算;

2. TOPS

TOPS(Tera Operations Per Second)表示”每秒操作次数“,1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作。

3. OPS与FLOPS

OPS与FLOPS类似,只不过OPS一个是操作次数,FLOPS一个是浮点操作次数。OPS是操作数量,FLOPS为浮点操作数量,通常情况下,FLOPS比OPS稍大。如果按照FP16衡量标准,两者可近似于相等。

传统的GPU采用GFLOPS,NPU的时代为了支持AI计算,采用TOPS。
在这里插入图片描述

4. 算力

算力是芯片单位时间里处理数据的能力,算力越高,单位时间里处理的数据量越大。简单理解,算力就是芯片解决某一个领域问题时单位时间内所能计算的次数。

第一是是算力可以用客观的数据去衡量,比如说常见的 GFLOPS 也就是每秒十亿/十亿(109)次的浮点运算) , TFLOPS 则是等于每秒一兆/一万亿(1012)次的浮点运算,PFLOPS(petaFLOPS)等于每秒一千兆/一千万亿(1015)次的浮点运算;

第二则是算力限定了领域,不同类型的芯片有自己侧重的场景,没必要跨领域对比,不同测试方法的结果也不太能直接横向对比。

所以要确定不同精度算力的性能,需通过各自领域内的专用测试程序来测试:比如说测超算有 Linpack 主要考察平台的双精度浮点算力;测人工智能应用性能的 Resnet-50 更看重的是半精度算力。

4.1 AI芯片算力

低标准下的高算力是比不上高标准下的低算力的,比如INT4标准下的100TOPS算力是要远弱于INT8标准下的90TOPS的。高标准下高算力,才能称之为强算力芯片。

评估AI芯片算力的常见单位是OPS,意为每秒执行的操作(operation)数量。不同于CPU和GPU等通用处理器,在单个时钟周期下的可执行操作数量很低;AI芯片通过设计特殊的计算单元,实现了超高的操作数量。

例如谷歌的初代TPU,其256x256的脉动阵列,在单个时钟周期下可执行65536个操作数量。由于其乘法单元是8bit的,主频700MHz,故算力为int8@65536x(1+1)700MHz=92Tops。其中1+1分别代表1次加法操作和1次乘法操作。

4.2 自动驾驶领域的算力

在这里插入图片描述
在这里插入图片描述
Orin芯片

蔚来汽车,其首款轿车ET7宣布,该车型搭载4颗英伟达Orin芯片,其制造工艺竟然达到7nm,总算力甚至高达1016TOPS。蔚来CEO李斌还断言,未来高端智能电动汽车新的定义标准为马力和算力。

而当下热门特斯拉FSD ,采用的制造工艺为14nm,其算力为144TOPS。两家主机厂不同产品的算法相差接近10倍,可想而知算力的竞赛有多激烈。蔚来CEO李斌还断言,未来高端智能电动汽车新的定义标准为马力算力

华山二号A1000芯片

黑芝麻智能发布的华山二号A1000系列,这款自动驾驶计算芯片已经正式通过AEC-Q100 Grade 2级别的车规认证。
在这里插入图片描述
黑芝麻智能发布的华山二号A1000系列,这款自动驾驶计算芯片已经正式通过AEC-Q100 Grade 2级别的车规认证。

4.3 手机领域的算力

在这里插入图片描述

芯片名称芯片类型衡量标准算力
华为麒麟9804.2TOPS
华为麒麟9701.92TOPS
芯片名称芯片类型衡量标准算力
OPPO MariSilicon XNPUINT818TOPS
芯片名称芯片类型衡量标准算力
苹果A15INT815.8TOPS
苹果A14INT811TOPS
苹果A13INT86TOPS
苹果A12INT85TOPS
芯片名称芯片类型衡量标准算力
骁龙888INT826TOPFS
骁龙870INT815TOPFS
骁龙865INT815TOPFS
骁龙855INT87TOPFS
骁龙8 Gen1芯片INT86TOPFS
芯片名称芯片类型衡量标准算力
联发科天玑120015TOPFS
联发科天玑10004.5TOPFS

骁龙888、苹果A15都是系统级的芯片。

除开自动驾驶,深度学习在手机拍照方面先行者Google也有很多探索,Google在2017年的Pixel 2就加入了Pixel Visual Core,PVC严格的说只能算是特殊领域专属架构(Domain-Specific Architecture)的ISP,但还不能算是NPU(Neural Processing Unit 神经网络处理器),直到2019年的Pixel 4搭载的Pixel Neural Core才能算是真正的神经网络处理器。

OPPO的马里亚纳X(MariSillicon X)是全球首个移动端6nm影像专用NPU,拥有出色的AI算力和超高的能效比,在INT8标准下,MariSilicon X的算力达到了18TOPS,超过了苹果A15芯片,是目前已经公布的INT8量化标准下的手机NPU算力最高的,是行业共识的INT8标准下的的第一算力。而应用到实际场景下的能效,每瓦性能也达到了11.6TOPS,这基本也是手机NPU能效的里程碑了。

马里亚纳X不同于骁龙Gen 1或者天机9000那样SoC片上内置NPU ,而是一个整合NPU和ISP(Image Signal Processor 图像信号处理器)功能的独立芯片。和Pixel Neural Core比较类似,这个芯片位于SoC的前端,在CMOS和SoC之间,这样图片数据在进入SoC之前就可以进行预处理。
在这里插入图片描述
马里亚纳X的ISP部分率先支持20bit的超高动态范围,而高通骁龙8 Gen 1和天玑9000都仅能支持18Bit,20Bit相比18Bit有更高的画面宽容度,此外Find X5 Pro的RGBW像素传感器的RGB和W分隔处理也是由ISP完成。

ISP初步处理好的数据再通过NPU进行降噪和HDR处理,提升画面的高感和宽容度表现(具体的方式应该和前面提及Google HDR算法差不多)。并且进行这个HDR处理的并不只是针对的单帧照片,不能等待拍摄完再慢悠悠转圈圈,而是需要实时处理4K30的超高清视频,有更高的实时性需求。
在这里插入图片描述
骁龙888的内置NPU 4K处理性能只有2FPS,基本是幻灯片级别。而在使用马里亚纳X的NPU之后,40FPS的性能就可以满足实时处理4K30视频HDR的性能需要。
在这里插入图片描述

能够实现4K30的实时HDR处理,是需要由马里亚纳X高达18 TOPS的INT8精度的算力来支撑的。
在这里插入图片描述
马里亚纳X有18TOPS的INT8算力,是明显高于前面介绍Google Tensor的5.7 TOPS,也要高于iPhone 13搭载A15的15.8 TOPS,骁龙8 Gen1和天玑9000的INT 8性能数据官方并没明确说明,这里就不做比较。但马里亚纳X同SoC内的NPU并不是抢占或者排他关系,而是可以分工负责流程处理不同的阶段,达成合作共赢。

除开马里亚纳X,其他手机或者独立芯片设计公司发布的NPU或ISP也都会宣告算力数据。无论是开发人员还是用户,面对算力数据的时候要有量化指标,一般是INT8或者INT16,少部分会使用INT4,实际上我们看全球大多数芯片公司的宣发,绝大多数会采用INT8或者INT16量作为指标。因为INT4算正负标识只能表示-8到7的整数,不算则是0-15的整数,能够实现的精度和范围太低,在神经网络中使用有比较大的限制,即使可以转到更小的神经网络也会有性能损失。

手机同车机的NPU虽然在架构方面差不多,但在具体需求上还是有不同:车机的NPU由于供电和散热都有更大冗余,对于功耗控制就没有敏感,就可以用相对落后的工艺,比如前面说的Tesla的FSD和海思的MC810都是采用的14/16nm工艺;而手机对于功耗也更为敏感,在马里亚纳X是采用的台积电先进6nm工艺。TSMC N6是N7节点的改良工艺,相比14/16nm在相同性能的情况,功耗大概要低上2/3。
在这里插入图片描述
N6先进工艺加持再加上专用电路的效率优势,使用马里亚纳X功耗仅为传统芯片的47%,再考虑20倍的性能差距,马里亚纳X有接近骁龙888的内置NPU的50倍效能比。更高的 FPS可以提供更为流畅的预览和拍摄性能,更高的效能比可以大幅降低手机拍摄时候的发热和电力消耗,这些改变都是可以大幅提升用户拍摄时候的使用体验的。

流片

OPPO的产品经理曾经介绍马里亚纳X的台积电6nm工艺流片费用超过人民币一亿元,流片的意思是将芯片生产全要素流程完整走一遍的试生产,如果不顺利需要反复调整这个成本还会更高,之前华为海思9000作为5nm首发试验的流片费用传说更是高达3亿。所以OPPO刚刚宣布要给TSMC下1000万片的订单,有效降低单片成本。而且马里亚纳X并不像有些厂商的“自主研发芯片”更像是贴牌冠名,马里亚纳X从芯片IP设计到算法,都是依靠自己组建的团队完全自主一步一步踏踏实实的走出来的,再加上量产封装测试的成本,马里亚纳X早期成本是非常贵的。另外,之前和他们聊的时候,听说早期他们本来采用的是12nm工艺的方案,后来觉得没啥用,做出来的时候SOC都可能进化到4nm甚至更先进了,所以下决心直接从6nm出发。

马里亚纳X的定位是影像专用NPU,特殊领域专属架构DSA使得其比较封闭,第三方应用是很难调用的,这样并不利于整体生态的发展。因此欧加集团的自研路线应该会和Google从Pixel Visual Core到Google Tensor的路线相近,先从马里亚纳X这样的特殊领域专属架构开始,在研发和运营过程中积累经验/培养团队,后续的最终目标还是作为Fabless(无晶圆生产能力的设计公司)研发独立设计的整体SoC,并形成完整的从硬到软的生态。

UV域与RAW域

在马里亚纳芯片加入后,OPPO做了另一件很重要的事儿,把计算摄影从UV域提前到了RAW域。
在这里插入图片描述
手机图片的处理,一般会经历三个过程:原始的RAW文件采集,转成RGB信号,再转成YuV信号编码,目前主流的手机HDR算法都是在YuV上进行的。

熟悉摄影的朋友应该知道,我们一般使用的图片是JEPG格式的,但如果是需要后期修图,则一般是用RAW文件,它能够记录更多的原始信息,图片后期处理本质就是算法,而算法输出结果和记录的原始信息是息息相关的,这就相当于极度保鲜的食材,越好的食材,越能够做出美味。

越是前端原始素材,它的细节保留越多,在处理的时候,能够用的信息就越多,OPPO在SoC的前端直接在RAW上做HDR,效果一定是最好的。

5. FP32与IN8

在这里插入图片描述

5.1 FP32

FP32是32位的二进制数,除开第一位(蓝色)是标明正负,除开后23位尾数(黄色),还有8位指数位(绿色)来提升数值范围和精度。传统以图像渲染为目标任务的GPU就是主要针对FP32来设计,流处理器的结构就十分复杂。

上面的图表我有写明具体转换算法,有兴趣的话,大家可以用下面链接的浮点转换器试试,就可以有更为深刻的理解:

浮点转换器:IEEE-754 Floating Point Converter

5.2 INT8

深度学习主要用到的是整型的INT8,甚至是更低精度范围的INT4。INT8除开第一位正负标识,后面的7位就说只能区分2的7次方即128个整数,再加上正负,也就-128到127一共256个数据(如果不算正负,那是0-255,也是256个数据)。但也就是这样的数据范围和精度,对于大多深度学习神经网络而言也是基本够用的。INT8能够更好的兼顾效率和泛用性,行业内的无论是intel的OpenVINO和NVIDIA的TensorRT应用都是以INT8为主。用INT4标注只是算力数值大比较好看而已,INT8的算力数据才是有更大的实用价值。

说明:传统GPU流处理器占大头的FP32部分是针对图像任务设计(Maxwell以前GPU和A100/H100这样的专业卡还有更高精度的FP64),对于大多深度学习任务而言就是多余的,仅仅只用的上少数的INT32。因此用传统GPU跑还不如用更多更小的纯INT计算单元来跑深度学习,这样来的性能更好,效率更高,成本更低,这也就是前面那些车企都不约而同选择专用神经网络处理器的原因。

5.3 INT4

个别场合里可以使用 INT4,个别场合就是指对准确度安全性要求相对较低的情况,毕竟 INT4 在有符号的情况下所能提供的正数数值范围只有 0 到 7、负数范围是 -7 到 -1,无符号时的正数范围是 0 到 15,其数值范围相当有限,当卷积核有负值或者之后归一化的时候,INT4 就会捉襟见肘。

6. INT8是个性能和精度的良好折衷

**目前在学术研究和业界实践中,INT8是个性能和精度的良好折衷。**例如Intel的OpenVINO和Nvidia的TensorRT推理加速框架,以及谷歌的Coral Edge TPU套件,对神经网络模型量化精度都优选了INT8,而且对CNN等常见神经网络模型的实际转换效果可以做到性能近似无损。 也因此,各类人工智能芯片基本都支持INT8。不管是隔壁华为海思,还是Intel家的FPGA,还是寒武纪,还是英伟达,在芯片算力上都标注了INT8。
在这里插入图片描述

模型量化的原理

通过一系列算法将神经网络模型的权值、激活值等从高精度转化成低精度,在定点与浮点等数据类型之间建立一种映射关系,目标是以较小的精度损失代价获得较大的收益:减少内存带宽和存储空间需求、提高系统吞吐量、降低系统延时。但这个操作过程是一种近似算法方法,不可避免的或多或少都会有精度损失,故存在一个全局最优解

7. 算法/算力/数据的逻辑

人工智能的三驾马车 —— 算法、算力、数据,这三者的关系是相互影响、相互支撑的,它们缺一不可。
在这里插入图片描述
算力提升→能运行更强的算法→可以收集更多的信息→需要更强的算法→需要更强的算力→算力提升→能运行更强的算法…… 这就是一个很好的正向循环。 为什么很多自动驾驶的车企卖硬件是不需要花钱,而软件是需要额外付费的,就是因为他们要利用一切可以利用的摄像头来收集尽可能多的信息。 对于手机来说,有个更强的 NPU, 也需要尽可能给更多的产品用上,这样才能均摊成本,收集记录更多信息,反哺算法 目前手机领域最著名的 NPU 之一,肯定就包括 OPPO 的马里亚纳 X, 因此我们有理由相信,它不仅仅只会在顶级旗舰 Find X 系列上搭载,而是会尽可能铺向中高端,如果可以的话,乃至入门的机器也会用上。 到了那个时候,我们就可以期待不仅仅 OPPO 的高端产品能有独特并超出其他竞品的优势,同时中端产品也可以有比采用类似规格 CMOS 和 SoC 的产品更好的表现。

8. 推理芯片

特斯拉FSD、寒武纪NPU、地平线BPU、OPPO的马里亚纳、荣耀使用的AI-ISP。

三、GPU

极智AI | 谈谈 GPU 并行推理的几个方式
极智AI | TensorRT API 构建模型推理流程
GPU硬件的发展与特性分析—Tesla系列汇总

1. TensorRT性能指标

TensorRT8 使用手记(6)性能统计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66818.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

45岁以后的IT人生

相关阅读: 300本计算机编程的经典书籍下载 1、2017年初,网上流传华为公司正在清理34岁以上的员工。 "中国区开始集中清理34的交付员工,......去向是跟海外服务部门交换今年新毕业的校招员工,也就是进新人,出旧人。…

采访了12位中年程序员,听听他们的故事和人生!

点击上方“程序IT圈”,选择“置顶公众号” 工作日早晨7点半,准点开车打卡 燃财经(ID:rancaijing)原创 作者 | 王琳 编辑 | 魏佳 程序员群体曾是低调多金的代表,前段时间996话题、甲骨文大裁员等事件持续发酵&#xf…

掌握4点职场技巧,打破测试人中年危机

很多年前看到一个“老板让俩员工买土豆”的故事,可能很多人都知道这个故事。故事大概讲的是,老板让两个新人去市场上看一下今天有没有卖土豆的。 小李很快回来了,说:“只有一个农民拉着土豆在卖,我们要不要&#xff1…

KK 给年轻人的99条建议

凯文凯利(Kevin Kelly,网名 KK)是著名的科技评论家,曾经担任《连线》(Wired)杂志的第一任主编,他的著作《失控》在国内外都非常有名。 去年4月28日,是他68岁的生日。老爷子在个人网…

我们身边40岁的Android程序员的“晚年“

昨天北京市政府做了一个关于996的调研,第一时间我参与了调研,同时发到所有读者群,让大家一起发声。 不少朋友开始热烈地讨论起来,有人很乐观认为这是改变的开始,也有人觉得这就是走一个形式。不管怎么说,也算看到政府针对这个问题开始有行动了。 其实996最残酷的一点是…

有哪些送给20多岁年轻人的建议?

职场&认知洞察 丨 作者 / findyi 这是findyi公众号的第81篇原创文章 这是我在知乎上回答的一个问题,点赞和评论比较多,于是也在公众号分享下。 看见这个问题,想起了我在游戏世界中浪费的那些年,想起了我当舔狗的岁月。 想起了…

42岁大龄程序员的看法

42岁超龄程序员的飘过 不赞成大龄就过时的说话,本人完全是转行过的的,从事过的行业超过半年以上的有五种以上,短的就不说了。 过气的说法,只能说明一个问题,没有与时具进的学习,多数程序员,出校…

亲历!给大龄IT人的几点求职建议

热文导读 | 点击标题阅读 如何进阶成为Java和Android架构师? 多角度全方位优化你的RecycleView性能 分享一张牛逼的程序员职业路线图给你们! 作者/来源:公众号丨漂洋过海的渔夫 大家好,我是那个43岁下岗,面试了15家公司…

农村男女离婚,为什么感觉很多都是女人什么都带不走?

李家大屋一对结婚8年的年轻夫妻,前天离婚了。那位曾经的媳妇,对着曾经深爱自己的公婆,重重的跪了下去,流着眼泪说:“爸爸,妈妈,媳妇对您们不住了,往后孩子就累您们了。”咽咽说完这话…

为什么我不建议你给领导回复“收到”?

1 领导提拔你 从来不是因为“收到” 很多人问我,怎样才是最快的成长方式? 有人说,领导最喜欢听话的员工,把领导说的全部落实到位,就一定能够得到领导的信任。 我说,这话只对了一半。 刚入职一到两年&#x…

P3287 [SCOI2014]方伯伯的玉米田

原题链接 数据结构优化DP 前置知识&#xff1a;二维树状数组 e.g.https://www.luogu.com.cn/problem/P4514 思路如下&#xff1a; 代码如下&#xff1a; #include <cstdio> #include <cctype>using namespace std; inline int read() {int x 0, f 0; char ch …

开工大吉,大数据告诉你一个完全不一样的年

原文链接&#xff1a;点击打开链接 阿里巴巴21日发布的《2018中国人新年俗报告》显示&#xff0c;除夕夜&#xff0c;超过1亿户家庭抢春晚手机淘宝红包&#xff0c;全球2.51亿支付宝用户集齐五福瓜分5亿现金红包&#xff1b;大年初一&#xff0c;淘票票上单场购票三张及以上的用…

汉语言文学专业需要学计算机吗,读个汉语言文学专业,学了有什么鬼用?

请问你在大学读的什么专业&#xff1f;” “汉语言文学。” 你一个男的学什么汉语言&#xff1f;一聊到这&#xff0c;谈话 就没必要再下去了&#xff0c;再聊就是给自己添堵了。 对&#xff0c;我就是学汉语言文学的&#xff0c;这个让我尴尬又痛苦的专业。 高考分数查询之后&…

【Lora智慧农业系统】让农民伯伯轻松坐等收割!

一、概述 ​ 随着智能化的普及&#xff0c;利用物联网等信息技术改造传统农业&#xff0c;对农业生产要素进行数字化设计、智能化控制也快速发展了起来。为了提高农业的产量以及改善农业生态环境&#xff0c;提高生产经营效率&#xff0c;方便人们日常生活&#xff0c;我们设计…

win10将硬盘作为存储池删除读不到盘符_一篇文章让你理解Ceph的三种存储接口(块设备、文件系统、对象存储)...

“Ceph是一个开源的、统一的、分布式的存储系统”&#xff0c;这是我们宣传Ceph时常说的一句话&#xff0c;其中“统一”是说Ceph可以一套存储系统同时提供块设备存储、文件系统存储和对象存储三种存储功能。一听这句话&#xff0c;具有一定存储基础的用户应该已经大致了解了Ce…

谷款量子计算机用了多少光子,中国光量子计算机诞生 脑容量小的别看

原标题&#xff1a;中国光量子计算机诞生 脑容量小的别看 “去和古代一个使用算盘的账房先生解释&#xff0c;我们给你制造出一种可以算得飞快的全新工具(计算机)&#xff0c;于是账房先生开始想&#xff0c;这到底是一种什么样的新算盘&#xff1f;是玻璃珠子&#xff1f;还是…

html5文字开始空两格,一段文字的开头为什么要空两格

有一个简书作者&#xff0c;名叫上官皖又名官皖儿&#xff0c;是中国著名新闻人(总编辑)&#xff0c;他刚才点赞我文&#xff0c;我打开他的主页阅读他的文章&#xff0c;其中有一篇讲到&#xff0c;学生试卷分数下边两条杠究竟是怎么来的。 图片发自简书App 这是生活里一个简单…

一百个你不应该继续用Dev C++的理由

这篇文章来源于一家台湾网站&#xff0c;看完之后觉得很有感想&#xff0c;就分享给大家了。现在NOIP复赛使用的DevC4.9.9.2都是10年前的老东西了&#xff0c;还有无数的大学教授甚至要求使用Win8的学生安装DevC&#xff0c;也不管装上之后能不能用。感觉新一届码农被这个坑爹的…

一个人做饭有哪些推荐?

Chen Sam &#xff0c;一个空号。 355 人赞同 -- 2015.12.28. 一个圣诞节长周末多了100个赞..Whats going on here..感恩。 有同学私信说需要详细步骤的做饭教程&#xff0c;但是这里篇幅太局限了..如果开一个微信公众号什么的有人会想看吗&#xff1f; 第一次认认真真地在知乎…