英伟达的这款GPU太强了!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

今年 3 月 21 日 - 24 日举办的 NVIDIA GTC 2022 大会可谓是亮点十足。NVIDIA 不仅一口气更新了 60 多个 SDK 应用程序,继续加大在 Omniverse、机器人平台、自动驾驶和量子计算等领域中的布局 ,还重磅发布了基于全新 Hopper 架构的 H100 GPU

Amusi 听说 H100 性能炸裂,应用在 AI 领域上会有数倍的性能提升。那么本文就带大家看看这一波刷屏的 Hopper 架构和首款产品 H100 GPU 究竟有多强!据了解,NVIDIA H100 将于 2022 年第三季度起开始供货,也期待能尽快上手实测一波~

6dd211c09a4b05e8250675276b1aacc7.png

图1 NVIDIA H100 GPU

首款 Hopper 架构 GPU:H100

NVIDIA 每代 GPU 的架构命名都是有出处的,今年 Hopper 架构是以计算机科学家先驱 Grace Murray Hopper 的姓氏命名(Hopper 为夫姓)。她是世界最早一批的程序员之一,也是最早的女性程序员之一,而且创造了现代第一个编译器 A-0 系统,以及第一个高级商用计算机程序语言 “COBOL” ,还被誉为 “COBOL 之母” ,据说是世界上第一个发现【bug】的人,debug 这个词也因此诞生

405f60c700994476bc20b32fb97187c1.png

图2 1960年在 UNIVAC 键盘前的 Hopper

一图看尽 Hopper H100 GPU 上的六大项突破性创新:

fb225d6472f6728716334a13eefaa0dd.png

图3 H100 上的六大项突破性创新

  1. 集成超过 800 亿个晶体管(台积电 4nm 工艺)

  2. Transformer Engine

  3. 第二代 MIG:多实例 GPU(Multi-Instance GPU)

  4. NVIDIA 机密计算(Confidential Computing)

  5. 第四代 NVLink

  6. 全新 DPX 指令

NVIDIA H100 GPU 硬件上的参数太炸裂,比如有:英伟达定制的台积电4nm工艺、单芯片设计、800 亿个晶体管、132 组 SM、16896 个 CUDA Core,528 个第四代Tensor Core,3TB/s 的 HBM3 显存等等。

特别值得提一下:4 nm 工艺使得 H100 时钟频率速度增加了 1.3 倍,SM 数量增加了 1.2 倍。

0efa913c664666deaf7d9d6c4a6f41df.png

图4 GH100 Full GPU with 144 SMs

71840d4e5179bdfab7e35882b38347a5.png

图5 GH100 Streaming Multiprocessor (SM)

更多硬件参数这里就不展开说了,感兴趣的同学可以直接看 NVIDIA H100 白皮书深入了解。这里重点介绍 NVIDIA H100 GPU 在 AI 上的性能突破

与上一代 A100 相比,H100 的 AI 性能更加强大。在计算机视觉、自然语言处理等领域,H100 比 A100 的性能增强数倍,部分数据如下图所示:

4d1ab318b10e590944e02fca59db3afe.png

图6 H100 实现 AI 和 HPC 突破

第四代 Tensor Core Architecture

第四代 Tensor Core 是 H100 AI 性能提升的一大神器!Tensor Core 是用于矩阵乘积和累加(MMA)数学运算的专用高性能计算核心 ,可为人工智能(AI)高性能计算(HPC)提供突破性的性能加速。第一代 Tensor Core 首次出现在 Volta 架构,从 Volta 到 Turing、Ampere 再到2022 最新的 Hopper 架构,Tensor Core 已经发展到了第四代。 

H100 GPU 中特别加入了 FP8 Tensor Core 来加速 AI 训练和推理。与上一代 A100 GPU(Ampere 架构)上的 FP16 相比,FP8 精度可提供高达 6 倍的性能

92c2ed94e7b830258a12d073907a86ff.png

图7 H100 FP8 和 A100 FP16

FP8 Tensor Core 支持 FP32、FP16 累加器和两种新的 FP8 输入类型:E4M3 和 E5M2。E5M2 是与 FP16 保持相同的动态范围,但精度大大降低,而 E4M3 精度稍高但动态范围较小。Tensor Core 中的 FP8 matrix 可以累加成 FP16 或 FP32,并且根据神经网络中的偏差,进一步输出转换为 FP8、BF16、FP16 或 FP32 格式。

1922549a15496c111cfb56261fe1bca1.png

图8  Hopper FP8

除了新增的 FP8 有恐怖的性能之外,第四代 Tensor Core 还整体加强了 FP16、FP64、TF32 和 INT8 等 Tensor Core。基本都是 3 倍及以上的性能提升,具体参数如下图所示(太强了):

cfe0cf15124c2fc6a0b89b636056f104.png

图9  H100 和 A100 Tensor Core对比

Transformer Engine

这里要重点聊聊 NVIDIA H100 最新推出的 Transformer Engine

先介绍一下 Transformer 是什么来头?AI 领域的人应该都知道,但还是要强调一下其重要性(不然也不会特别推出定制版的 Engine)。

2017 年,Transformer 横空出世!快速席卷并统治了自然语言处理(NLP)领域;接着 2020 年,Vision Transformer 横空出世,成功将 Transformer 应用到了计算机视觉(CV)领域,目前也是屠榜了 CV 领域中的很多方向,比如目标检测、图像分割、目标跟踪等;而且 Transformer 在音频/语音、药物发现等领域也都有广泛应用。

dba4e74b2fb24c24534efb4d39cb5010.png

图10 Transformer 架构

可见 Transformer 已经成为 AI 领域中举足轻重的通用模型,但由于在过去五年中,Transformer 模型大小的增长速度比大多数其他 AI 模型快得多,每两年接近增长 275 倍,所以 Transformer 网络的训练时间会很长,而且部署应用也会因为算力原因受到很大限制。

4b5768bf929c2bccf8846849db59fc5b.png

图11 Transformer 模型大小呈指数增长

为此,NVIDIA 特别打造了 Transformer Engine:一项由软件和定制的 Hopper Tensor Core 硬件相结合的专门用于加速 Transformer 模型计算的技术。Hopper Tensor Core 能够利用混合的 FP8 和 FP16 精度格式,减少内存使用,大幅加速 Transformer 训练的 AI 计算,同时保持准确性。

具体工作原理:在 Transformer 模型的每一层,Transformer Engine 都会分析 Tensor Core 产生的输出值的统计数据。了解了接下来会出现哪种类型的神经网络层以及它需要什么精度后,Transformer Engine 还会决定将 Tensor 转换为哪种目标格式,然后再将其存储到内存中。FP8 的范围比其他数字格式更有限。为了优化使用可用范围,Transformer Engine 还使用从 Tensor 统计中计算出的缩放因子(Scaling Factors)动态地将 Tensor 数据缩放到可表示的范围内。因此,每一层都在会其所需的范围内运行,并以最佳方式加速。

365356682b4af77d1e08cc38f8f2270a.png

图12 Transformer Engine 概念操作

借助全新 Transformer Engine 和基本硬件参数提升使 H100 在大型语言模型上的 AI 训练速度提高了 9 倍,AI 推理速度提高了 30 倍。

下面举几个例子,1750 亿参数的 GPT-3 训练时间从 5 天缩短至 19 个小时;3950 亿参数的混合专家模型训练时间从 7 天 缩短至 20 个小时。

34565eae6fe95c7bb54cd1bc2d58ee42.png

图12 GPT-3/MoE/Megatron 

上面介绍的第四代 Tensor Core 和 Transformer Engine 对于 H100 的计算性能(Compute Performance)提升尤为重要,如下图所示:

580933e686d4e06b7735a9d3bc24ed90.png

图13 H100 计算性能改进

DPX 指令

NVIDIA H100 新推出的 DPX 指令可以将动态规划(Dynamic Programming)的性能提高多达 7 倍,可大大加快疾病诊断、物流路径优化和缩短图分析的时间。

下图展示的两个示例包括用于基因组学和蛋白质测序的 Smith-Waterman 算法,以及用于为机器人车队在动态仓库环境中寻找最佳路线的 Floyd-Warshall 算法。

6666496c2a3379503473f8510dbff8a3.png

图14 DPX 指令加速动态规划

985d25695c9070c60dce1149cbaa309c.png

图15  用于基因组测序的 Smith-Waterman 算法

第四代 NVLink 和 第三代 NVSwitch

NVLink 是 NVIDIA 开发的一种高带宽、节能、低延迟、高速 GPU 互连技术,能够实现显存和性能扩展。

f961ac4859e9319db71110b6767031e3.gif

图16 NVIDIA NVLink

NVIDIA NVLink 第四代互连技术与上一代 NVLink 相比,通信带宽增加了 50%。H100 包含 18 条第四代 NVLink 链路,可提供 900 GB/秒的总带宽,是 PCIe Gen 5 带宽的 7 倍。

93a75e201032125329fd766d0e69dfcf.png

图17 NVLink 性能改进

第三代 NVSwitch 技术包括位于节点内部和外部的交换机,用于连接服务器、集群和数据中心环境中的多个 GPU。每个 NVSwitch 提供 64  个第四代 NVLink 链路端口,以加速多 GPU 连接。总交换机吞吐量从上一代的 7.2 Tbits/sec 增加到 13.6 Tbits/sec。新的第三代 NVSwitch 技术并配有 NVIDIA SHARP 引擎,可用于网络内归约和组播加速。

新的 NVLink Switch System

为加速大型 AI 模型,可以将第四代 NVLink 和第三代 NVSwitch 结合以构建 NVLink Switch System networks。最多支持连接 256 个 H100 GPU(全新的NVIDIA SuperPOD 因此而生),实现 57.6 TB/s 的多对多总带宽。而且新的 NVLink Switch System 在针对一些大型计算工作负载任务,比如需要在多个GPU加速节点上进行模型并行化时,能够通过互联调整负载,可以再次提高性能。

e8a2411b6f29721e11efa0aedfb5950c.png

图18 DGX A100 vs DGX H100 32-node, 256 GPU NVIDIA SuperPOD Comparison

下面再介绍几款以 H100 为"基本单位" 构建的大型 AI 计算产品。

NVIDIA DGX H100

NVIDIA DGX H100 是世界上第一个专用 AI 基础架构的第四代产品 ,也是一个专用于训练,推理和分析的通用高性能 AI 系统,集成了 8 个 NVIDIA H100 GPU, 拥有总计 6400 亿个晶体管,总 GPU 显存高达 640GB ,可满足自然语言处理、深度学习推荐系统和医疗健康研究等大型工作负载的需求。

e976e1cb108d18fe690118251043d590.png

图19 DGX H100

NVIDIA DGX H100 SuperPOD  

专为企业级 AI 设计的全新 DGX SuperPOD !预计 2022 年底即将推出!

DGX SuperPOD 由 32 个 DGX H100 组成,被称为“可扩展单元”,共集成了 256 个 H100 GPU,通过基于第三代 NVSwitch 技术的新的第二级 NVLink 交换机连接,提供前所未有的 FP8 稀疏 AI 计算性能的 exaFLOP 。非常适合扩展基础架构,支持更大规模、更复杂的 AI 工作负载,例如使用 NVIDIA NeMo 的大型语言模型和深度学习推荐系统。

ae34714cf4c063dc924935a6ace03bb3.png

图20 NVIDIA DGX H100 SuperPOD

NVIDIA Eos 全球最快 AI 超算

NVIDIA Eos 是目前世界上最快的人工智能超算(AI Supercomputer),共有 576 个 DGX H100 系统,4,608 个  H100 GPU。NVIDIA Eos 预计将提供 18 exaflops 的 AI 计算性能,比目前世界上最快的系统日本的 Fugaku 超算快 4 倍的 AI 处理速度。

fbd113956a85bbf104fee31f291332c9.png

图21 NVIDIA Eos

总结和展望

基于全新 Hopper 架构的 H100 GPU 算力再创新高!最新换代的 TensorCore,最新推出的 FP8、Transformer Engine 等等创新都将助力 H100 在 AI 上的性能提升。

而且 H100 GPU 上面还有一些专项的增强,比如专门针对 Video 解码的 NVDEC(支持 H264 / HEVC / VP9 等格式)和专门针对 JPEG 解码的 NVJPG (JPEG) Decode。NVDEC 和 NVJPG 可以大大提高计算机视觉数据在训练和推理过程中的处理性能(高速吞吐量)。H100 相较于上一代 A100 ,NVDEC 和 NVJPG 的解码吞吐能力提高了2倍以上。

Amusi 相信 H100 GPU 可以进一步推进 AI、元宇宙、自动驾驶等领域的发展!也期待更优秀的相关衍生产品和应用!

5128b63391e3ec900ffe653f582d9d72.png

整理不易,请点赞和在看89e522207f4c136adaf17a09efbe1766.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/31311.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英伟达创始人出生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 2 月 17 日,在 1996 年的今天,IBM 的超级计算机“深蓝”首次挑战卡斯帕罗夫落败。“深蓝”首次挑战虽然最终败北,但却赢得了…

作为超级自动化的重要先驱,流程挖掘正在成为组织运营标配

正在成为组织运营标配的流程挖掘,到底有哪些商业价值? 作为超级自动化的重要先驱,流程挖掘正在成为组织运营标配 文/王吉伟 AIGC正在影响越来越多的行业,流程挖掘领域亦不例外。 Mindzie首先宣布集成生成式AI,使用户…

如何利用ChatGPT构建高效的思维导图

如何利用ChatGPT构建高效的思维导图 文章目录 如何利用ChatGPT构建高效的思维导图第一步输入指令,生成大纲指令内容GPT回答 第二步把得到的markdown格式保存为md文件第三步,导入到XMind生成思维导图思维图成品展示 第一步输入指令,生成大纲 …

2021年中国健康体检现状与格局分析,老龄化趋势推动产业发展,民营占比持续提升「图」

一、健康体检产业链概述 健康体检产业上游主要包括相关仪器设备和医用耗材,下游为个人客户或单位团体客户。医疗器械的市场分散程度较高,如果体检中心对医疗器械的采购量大,对上游的议价能力就强;体检中心对下游的团体客户议价能…

【报告分享】2021中国人健康大数据报告-光华博思特(附下载)

摘要:生老病死是我们每个人的坎,如今现代社会,文明程度较高,人们不再追求虚无缥缈的“长生不死”。如何能在有限的生命中,过得更好、更健康,才是打开生命的正确姿势。从这份报告中那些触目惊心的数字里不难看出我国国民…

中国健康体检行业行情动态及未来发展趋向分析报告2022年版

中国健康体检行业行情动态及未来发展趋向分析报告2022年版 【报告目录】: 正文目录 2 图表目录 19 第1章:中国健康体检行业发展环境分析 21 1.1 健康体检行业概念及产业链分析 21 1.1.1 健康体检行业定义 21 1.1.2 健康体检行业产业链简介 21 1.1.3 健…

关于GPT-4,14个容易被忽略的惊人细节!

来源:华尔街见闻 OpenAI推发布了GPT-4之后,向科技界再次扔下了一枚“核弹”。 根据OpenAI的演示,我们知道了GPT-4拥有着比GPT-3.5更强大的力量:总结文章、写代码、报税、写诗等等。 但如果我们深入OpenAI所发布的技术报告&…

科研人的利器:利用New Bing五分钟读完一篇论文

大家好,我是可夫小子,关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。加我,拉你进群。 New Bing『新必应』是微软一款集成了ChatGPT的搜索引擎,它以聊天的方式来进行信息搜索,这不同过去几十年通过对话框搜索信…

两位阿里 P10 的成长经历,让我学到这几点...

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 作者:shixin。 最近看完了专栏《超级访谈:对话毕玄》,和年初看的《超级访谈:对话汤峥嵘》类似,它们都是对阿里 P10(程序员金字塔顶…

独立产品灵感周刊 DecoHack #052 - 100个AI 工具导航网站

本周刊记录有趣好玩的独立产品设计开发相关内容,每周发布,往期内容同样精彩,感兴趣的伙伴可以 点击订阅我的周刊。为保证每期都能收到,建议邮件订阅。欢迎通过 Twitter 私信推荐或投稿。 ❤️ 刚换工作再加上个人原因有些自己的事…

如旁观者听余华从死亡中谈《活着》

“少年去游荡,中年想掘藏,老年做和尚。” ——《活着》 很喜欢人一旦了解了自己也就了解了世界这句话。犹如书中最后福贵唱到那句歌词,也就是文章首行。十五个字贯穿了一生。 福贵到人生的最后,以“做人还是平常点好,争…

读余华先生的《活着》、《许三观卖血记》

余华先生真是个讲故事的高手。就像小时候在婆婆的店子里听村子里的老人在吹牛皮感觉,时不时的夹杂点少儿不宜的口吻,有时候还会一本正经的给你扯一些人生大道理。 关上书总感觉热泪盈眶。记得没看书前去太平镇的路上,波波告诉我他很幸福&…

《活着》--余华

《活着》,作者是余华 下面是我的书摘: * 我听了这话,只能在心里叹息一声,我还能说什么呢?好端端的一个家成了砸破了的瓦罐似的四分五裂。 到了晚上,我躺在床上常常睡不着,一会儿恨这个&#xff…

余华:从手握钢钳的牙医到名满世界的作家

刚刚读了余华的《我只知道人是什么》,里面是余华的一些演讲、随笔和杂文,蛮有意思的,我从书中收录的几篇文章中,梳理出了余华从牙医到国内顶流小说家的大概经历,分享给大家。 (一) 余华1960年生…

读了余华的“活着”

一:为什么突然读这本书 前段时间读了“平凡的世界”,每一个都是平平凡凡的人,每一家子都过着平凡的生活,生活总会是由坏变好,当然这其中难免会有意外,时间会治愈一切,最终还是会回归平凡。 经历…

余华和罗翔的神仙对谈,治愈人心

众所周知,罗翔和余华,是B站上的两大“顶流”。 提到余华,你一定听过他的那本经典文学作品《活着》。但他不仅是一位写尽人性的当代作家,还是个金句频出的可爱段子手。有网友评价他“人和书各火各的”,比如他给自己的小…

读余华《活着》,你好,我叫福贵

前言:余华的《活着》算是家喻户晓的作品了,以前总不敢去读,抑或是太沉重了,不过很多东西还是得去亲身感受。 近3小时一次读完 讲真,我是不怎么读小说的,尤其是这类比较沉重的带着严重历史色彩背景的作品。…

《第七天》余华

ISBN:978-7-5133-3141-8 作者:余华 页数:225 阅读时间:2021-08-22 推荐指数:★★★★☆ 这本书写的是死后的七天历程, 从死人的角度和死后其他人的描述来展述的, 设定是人死后能有死之前的记忆&…

从0到1构建一个完整的mini-ChatGPT

随着ChatGPT的爆火,大语言模型(LLM)得到空前关注。根据《2023Q1就业趋势大数据报告》,大语言模型的职位同比增长172.53%,是所有行业中职位增加最多的。NLP以及智能语音领域的从业者,都在向大语言模型靠拢。 那么,从0到…