微软ChatGPT技术的底层支撑——GPU

 我是荔园微风,作为一名在IT界整整25年的老兵,今天我们来看一看微软ChatGPT技术的底层支撑——GPU。

想要了解GPU,你必须要清楚CPU、GPU、TPU三者的关系。

微软的chatgpt是基于复杂的人工神经网络和强化学习的技术,这是如何运算的?在我们对比 CPU、GPU 和 TPU 之前,我们可以先了解到底机器学习或神经网络需要什么样的计算。如下所示,假设我们使用单层神经网络识别手写数字。

如果图像为 28×28 像素的灰度图,那么它可以转化为包含 784 个元素的向量。神经元会接收所有 784 个值,并将它们与参数值(上图红线)相乘,因此才能识别为「8」。其中参数值的作用类似于用「滤波器」从数据中抽取特征,因而能计算输入图像与「8」之间的相似性:

这是对神经网络做数据分类最基础的解释,即将数据与对应的参数相乘(上图两种颜色的点),并将它们加在一起(上图右侧收集计算结果)。如果我们能得到最高的预测值,那么我们会发现输入数据与对应参数非常匹配,这也就最可能是正确的答案。

简单而言,神经网络在数据和参数之间需要执行大量的乘法和加法。我们通常会将这些乘法与加法组合为矩阵运算,这在我们大学的线性代数中会提到。所以关键点是我们该如何快速执行大型矩阵运算,同时还需要更小的能耗。

CPU 如何运行

因此 CPU 如何来执行这样的大型矩阵运算任务呢?一般 CPU 是基于冯诺依曼架构的通用处理器,这意味着 CPU 与软件和内存的运行方式如下:

图:CPU 如何运行

CPU 最大的优势是灵活性。通过冯诺依曼架构,我们可以为数百万的不同应用加载任何软件。我们可以使用 CPU 处理文字、控制火箭引擎、执行银行交易或者使用神经网络分类图像。

但是,由于 CPU 非常灵活,硬件无法一直了解下一个计算是什么,直到它读取了软件的下一个指令。CPU 必须在内部将每次计算的结果保存到内存中(也被称为寄存器或 L1 缓存)。内存访问成为 CPU 架构的不足,被称为冯诺依曼瓶颈。

虽然神经网络的大规模运算中的每一步都是完全可预测的,每一个 CPU 的算术逻辑单元(ALU,控制乘法器和加法器的组件)都只能一个接一个地执行它们,每一次都需要访问内存,限制了总体吞吐量,并需要大量的能耗。

GPU 如何工作

为了获得比 CPU 更高的吞吐量,GPU 使用一种简单的策略:在单个处理器中使用成千上万个 ALU。现代 GPU 通常在单个处理器中拥有 2500-5000 个 ALU,意味着你可以同时执行数千次乘法和加法运算。

图:GPU 如何工作

这种 GPU 架构在有大量并行化的应用中工作得很好,例如在神经网络中的矩阵乘法。实际上,相比 CPU,GPU 在深度学习的典型训练工作负载中能实现高几个数量级的吞吐量。这正是为什么 GPU 是深度学习中最受欢迎的处理器架构。

但是,GPU 仍然是一种通用的处理器,必须支持几百万种不同的应用和软件。这又把我们带回到了基础的问题,冯诺依曼瓶颈。在每次几千个 ALU 的计算中,GPU 都需要访问寄存器或共享内存来读取和保存中间计算结果。

因为 GPU 在其 ALU 上执行更多的并行计算,它也会成比例地耗费更多的能量来访问内存,同时也因为复杂的线路而增加 GPU 的物理空间占用。

TPU 如何工作

当谷歌设计 TPU 的时候,我们构建了一种领域特定的架构。这意味着,我们没有设计一种通用的处理器,而是专用于神经网络工作负载的矩阵处理器。

TPU 不能运行文本处理软件、控制火箭引擎或执行银行业务,但它们可以为神经网络处理大量的乘法和加法运算,同时 TPU 的速度非常快、能耗非常小且物理空间占用也更小。

其主要助因是对冯诺依曼瓶颈的大幅度简化。因为该处理器的主要任务是矩阵处理,TPU 的硬件设计者知道该运算过程的每个步骤。因此他们放置了成千上万的乘法器和加法器并将它们直接连接起来,以构建那些运算符的物理矩阵。

这被称作脉动阵列(Systolic Array)架构。在 Cloud TPU v2 的例子中,有两个 128X128 的脉动阵列,在单个处理器中集成了 32768 个 ALU 的 16 位浮点值。

我们来看看一个脉动阵列如何执行神经网络计算。首先,TPU 从内存加载参数到乘法器和加法器的矩阵中。

图:TPU 如何工作

然后,TPU 从内存加载数据。当每个乘法被执行后,其结果将被传递到下一个乘法器,同时执行加法。因此结果将是所有数据和参数乘积的和。在大量计算和数据传递的整个过程中,不需要执行任何的内存访问。

这就是为什么 TPU 可以在神经网络运算上达到高计算吞吐量,同时能耗和物理空间都很小。

因此使用 TPU 架构的好处就是:成本降低至 1/5。

刚开始接触深度学习概念时,基本大多数时候也就提到GPU,也基本是用GPU来进行深度学习算法训练或部署人脸识别系统的。

近几年,随着人工智能(尤其是人脸识别)的爆炸式发展,诞生了许多新的东西,其中这芯片,就让很多人都摸不着头脑。

除了CPU,GPU之外,还有TPU,NPU等,真的是CPU/GPU/TPU/NPU傻傻分不清楚啊。

今天,闻西就来帮大家理理这些让人分不清楚的芯片到底都是啥?怎么区别它们?

CPU

CPU是大家听到得最多的。

CPU英文全称是Central Processing Unit,中文全称是中央处理器,是计算机的核心器件,CPU通常由三个部分组成:计算单元、控制单元和存储单元。

架构图如下:

GPU

GPU全称是Graphics Processing Unit,中文全称叫图形处理器,它也是由三个部分组成:计算单元、控制单元和存储单元。
我们继续沿用上面CPU架构图用来表示各个单元的颜色来表示下GPU架构(黄色用来表示控制单元,绿色用来表示计算单元,橙色用来表示存储单元),如下:

这妥妥是个CPU变种啊!

我们把CPU和GPU的架构图放在一起比较下,看看有啥区别:

CPU这边起码30%都是用在了控制单元,各个单元占比还算均衡,而GPU就夸张了,80%以上都用在了计算单元,偏科有点严重啊。

正是由于这种区别,导致CPU精于控制和复杂运算,而GPU精于简单且重复的运算。

另外CPU和GPU还有一个最大的区别:CPU是顺序执行运算,而GPU是可以大量并发的执行运算,通俗的说就是CPU做事情是一件一件来做,而GPU是很多件事情同时做。

但很多件事情同时做,一定是简单的事情,就像一个人一样,我们没法同时做两件复杂的事情。

借用别人的说法,就像你有个工作需要计算几亿次一百以内加减乘除一样,最好的办法就是雇上几十个学生一起算,一人算一部分,反正这些计算也没什么技术含量;而CPU就像教授,积分微分都会算,就是工资高,一个教授资顶二十个学生。

GPU就是用很多简单的计算单元去完成大量的计算任务,纯粹的人海战术。这种策略基于一个前提,就是学生A和学生B的工作没有什么依赖性,是互相独立的。

虽然GPU是为了图像处理而生的,但是我们通过前面的介绍可以发现,它在结构上并没有专门为图像服务的部件,只是对CPU的结构进行了优化与调整,所以现在GPU不仅可以在图像处理领域大显身手,它还被用来科学计算、密码破解、数值分析,海量数据处理(排序,Map-Reduce等),金融分析等需要大规模并行计算的领域。

上面我们提到的CPU和GPU都是通用芯片。

一块石头,是通用的,但如果我专门打磨打磨,让它变成锋利的,是不是就可以用来切割东西了呢?

有了这个概念后,对于TPU,NPU等等众多的PU们,你把它们当成都是专门打磨过的石头,就很好理解了。

TPU

自从谷歌的AlphaGo打败李世石之后,谷歌在人工智能界的知名度也越来越大了,于是谷歌推出了它们的深度学习框架TensorFlow,这个深度学习框架也就此扬名世界。

有了好的算法框架,就得要有硬件来支持啊,传统的GPU行吗?

当然行,可是它毕竟是块通用的石头,要是打磨打磨就好了。

于是针对谷歌的深度学习框架TensorFlow专门定制的芯片诞生了,英文全称就叫Tensor Processing Unit,翻译为中文就是张量处理单元,它到底有多牛呢?比较下你就知道了:

TPU与同期的CPU和GPU相比,可以提供15-30倍的性能提升,以及30-80倍的效率(性能/瓦特)提升。

NPU

NPU英文全称是Neural network Processing Unit, 中文叫神经网络处理器。

神经网络就是你大脑里面的神经元连接成的网络,错综复杂,据说越复杂越聪明,当然太复杂了,就成神经病了。

而这个NPU,即神经网络处理器,就是要模仿人的大脑神经网络,使之具备智能。

怎么模仿呢?

NPU工作原理是在电路层模拟人类神经元和突触,并且用深度学习指令集直接处理大规模的神经元和突触,一条指令完成一组神经元的处理。相比于CPU和GPU,NPU通过突触权重实现存储和计算一体化,从而提高运行效率。

其他PU们

APU — Accelerated Processing Unit, 加速处理器,AMD公司推出加速图像处理芯片产品。

BPU — Brain Processing Unit, 地平线公司主导的嵌入式处理器架构。

CPU — Central Processing Unit 中央处理器, 目前PC core的主流产品。

DPU — Deep learning Processing Unit, 深度学习处理器,最早由国内深鉴科技提出;另说有Dataflow Processing Unit 数据流处理器, Wave Computing 公司提出的AI架构;Data storage Processing Unit,深圳大普微的智能固态硬盘处理器。

FPU — Floating Processing Unit 浮点计算单元,通用处理器中的浮点运算模块。

GPU — Graphics Processing Unit, 图形处理器,采用多线程SIMD架构,为图形处理而生。

HPU — Holographics Processing Unit 全息图像处理器, 微软出品的全息计算芯片与设备。

IPU — Intelligence Processing Unit, Deep Mind投资的Graphcore公司出品的AI处理器产品。

MPU/MCU — Microprocessor/Micro controller Unit, 微处理器/微控制器,一般用于低计算应用的RISC计算机体系架构产品,如ARM-M系列处理器。

NPU — Neural Network Processing Unit,神经网络处理器,是基于神经网络算法与加速的新型处理器总称,如中科院计算所/寒武纪公司出品的diannao系列。

RPU — Radio Processing Unit, 无线电处理器, Imagination Technologies 公司推出的集合集Wifi/蓝牙/FM/处理器为单片的处理器。

TPU — Tensor Processing Unit 张量处理器, Google 公司推出的加速人工智能算法的专用处理器。目前一代TPU面向Inference,二代面向训练。

VPU — Vector Processing Unit 矢量处理器,Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心。

WPU — Wearable Processing Unit, 可穿戴处理器,Ineda Systems公司推出的可穿戴片上系统产品,包含GPU/MIPS CPU等IP。

XPU — 百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速,含256核。

ZPU — Zylin Processing Unit, 由挪威Zylin 公司推出的一款32位开源处理器。

作者简介:荔园微风,1981年生,高级工程师,浙大工学硕士,软件工程项目主管,做过程序员、软件设计师、系统架构师,早期的Windows程序员,Visual Studio忠实用户,C/C++使用者,是一位在计算机界学习、拼搏、奋斗了25年的老将,经历了UNIX时代、桌面WIN32时代、Web应用时代、云计算时代、手机安卓时代、大数据时代、ICT时代、AI深度学习时代、智能机器时代,我不知道未来还会有什么时代,只记得这一路走来,充满着艰辛与收获,愿同大家一起走下去,充满希望的走下去。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/872.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT的前世今生

作者🕵️‍♂️:让机器理解语言か 专栏🎇:NLP(自然语言处理) 描述🎨:让机器理解语言,让世界更加美好! 寄语💓:🐾没有白走的…

无需GPU无需网络“本地部署chatGPT”(更新StableVicuna)

想当初图像生成从DELL到stable diffusion再到苹果的移动部署过了两三年吧 聊天bot才发展几个月就可以边缘部署了,如果苹果更新silicon,npu和运存翻倍,争取apple watch也能本地内置,最快ios18 mac、ipad、iPhone能内置吧 又是一个平…

说说最近的潮流ChatGPT

最近这个ChatGPT可谓是火遍全网,基本占据各个平台的热搜,如 “ChatGPT让苹果急了”“美国89%的大学生都是用ChatGPT做作业”,网友笑称终于有个懂我的AI了,再也不是“人工智障了” 这个ChatGPT到底神奇在哪里??? 官方给出的答…

苹果公司限制员工使用AI工具ChatGPT和GitHub Copilot

​关注文章下方公众号,即可免费获取AIGC最新学习资料 导读:苹果公司最近发布了一份内部备忘录,禁止员工使用生成式AI平台(包括ChatGPT和GitHub的Copilot等)用于工作任务。 本文字数:600,阅读时…

询问ChatGPT的高质量答案艺术——提示工程指南

目录 前言一、提示工程简介二、提示技巧2-1、生成法律文件2-2、添加提示技巧 三、角色扮演3-1、智能手机产品描述3-2、添加角色扮演 四、标准提示4-1、写一篇有关于新智能手机的评论4-2、添加标准提示、角色提示、种子词提示等等 五、示例很少、或者没有示例5-1、生成一个手机配…

视界 | ChatGPT横空出世,谷歌苹果都“急”了

最近ChatGPT简直火出圈了。 这是一款人工智能聊天机器人,网络上传得神乎其神。在传说中,ChatGPT会写诗、改论文、编程序、写文章、看病......,甚至还会写券商的行业分析报告,简直无所不能。 据说许多打工人已经在担心自己的饭碗…

chatGPT对经济的影响

公众号文章:chatGPT对经济的影响 问答 chatGPT对经济的影响是什么 请你扮演一位大学生,要做一场关于“chatGPT对经济的影响“的报告,请你详细讲述PPT制作构思以及开场白 好的,作为一位大学生,我非常荣幸能够在这里向…

把ChatGPT的所有插件整理成中文后!真要说卧槽了..

大家好,我是五竹。 ChatGPT如约向用户开放了联网功能和众多插件,五竹从上周开始满怀着热情等待着,看别人的测评效果都快把我羡慕哭了。最终等来的却是Plus账号给封了,而且至今也没有续上,只能说非常无奈。算了&#x…

ChatGPT的申请之路(2)

https://chat.openai.com/ 1、账号已经申请成功,选择Login 2、选择Continue with Apple 3、输入苹果ID 4、输入密码 5、继续 6、ChatGPT的画面终于出来了,红框为输入信息框 7、聊天示例 8、换中文试试

【ChatGPT 实践 1】Mac、Iphone、Ipad 集成 ChatGPT

环境准备 1 个 ChatGPT 账号 步骤概述 这里以 Mac 为例: 1、点击下面链接,添加 爱玩 快捷指令 https://www.icloud.com/shortcuts/2f6afbd6660e48e18a587bc90ede3932 (可能出现打不开的情况,比如 部分 Iphone 设备&#xff…

接入ChatGPT应用被苹果阻止更新,要求改成17限

萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT开放API消息才出来,就有应用安排上了。 然而,苹果却把这次更新阻止了! 理由是人工智能可能会产生不适合所有受众的内容: 要么增加内容过滤功能,要么把APP适用人群改到1…

ChatGPT开源系列

目录 进化树 从GPT-4 可以看出未来 LLM 的哪些趋势?未来的研发方向和优化策略是什么? 模型 Stanford Alpaca 可以借鉴的点 llama.cpp 验证阶段已完成 nebullvm-chatllama(待定) 可以借鉴的点 OpenChatKit 可以借鉴的点&a…

ChatGPT飙升苹果商店榜首,每周订阅需7.99美元,结果是个假的???

衡宇 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT出App版了,苹果商店下载就能使用?? 打开美国Apple Store搜索,下载后软件内每周付费7.99美元,即可享受与它无次数限制畅聊。 不过别忙着付费! 这个ChatGPT C…

OpenAI推出iOS版ChatGPT,支持语音输入

北京时间5月19日凌晨,OpenAI重磅推出iOS版ChatGPT。 据介绍,iOS版ChatGPT供免费使用,并在不同设备上同步聊天历史。 同时,它还集成了开源语音识别系统Whisper,可以实现语音输入。 另外,ChatGPT Plus用户在i…

AI在狂飙,ChatGPT-4可直接在iPhone上使用啦

今天凌晨,OpenAI 正式在 App Store 推出了 ChatGPT 的 iOS app,瞬间冲上苹果商店免费榜第二名,效率榜第一名。 于是兴致勃勃的去下载体验了一番。整体不错,以后手机使用官方的 ChatGPT 更方便啦!而且使用 GPT4 不再麻…

“我在 iPhone 上,创建了个 ChatGPT 快捷方式,这也太万能了……”

【CSDN 编者按】由 ChatGPT 提供支持的神奇快捷方式 S-GPT。 原文链接:https://medium.com/macoclock/heres-a-chatgpt-powered-shortcut-for-ios-that-will-blow-your-mind-c6aeebb77e00 未经允许,禁止转载! 作者 | Nikhil Vemu 译者 | 弯月…

ChatGPT为一位英语女教师做了这件事

文 / 高扬(微信公众号:量子论) 今天有位网友加我微信,是某中学的英语老师,通过“量子论”公众号知晓了ChatGPT的一些有趣玩法,询问是否有办法帮她做个提示词,依据一个单词生成配套学习资料。 即…

ChatGPT专业应用:英文语法纠错

正文共 381 字,阅读大约需要 1 分钟 英语学习者必备技巧,您将在1分钟后获得以下超能力: 英文语法纠错 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 | Linda 编辑者 | Yolanda ●此图…

更好地提问ChatGPT_常用prompt表

对常见的用途,记录该表以便获得ChatGPT更高质量的回复。 类别目的提问方式要点文案写作周报、日报、年终总结本周我做了以下几件事情:出差客户办事处、交流演示、初步数据分析。请帮我写一份周报要点形式列举工作内容。可以说明职位,以便工作…

​使用ChatGPT进行文章降重​

#ChatGPTTOC 使用ChatGPT进行文章降重 在ChatGPT引领的技术爆炸时期,如何使用它对文章进行降重? 推荐一个实测简单有效的方法,只需两步: 简单来说就是先进行关键点提取再进行关键点扩写。 关键点提取 提炼出这段话的关键点和结论…