科技云报道:算力之战,英伟达再度释放AI“炸弹”

科技云报道原创。

近日,在计算机图形学顶会SIGGRAPH 2023现场,英伟达再度释放深夜“炸弹”,大模型专用芯片迎来升级版本。

英伟达在会上发布了新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款搭载HBM3e处理器的新型Grace Hopper超级芯片——GH200,专为处理大语言模型、推荐系统、矢量数据库等全球最复杂的生成式AI工作负载而构建。

据悉,GH200芯片将成为世界上第一个配备HBM3e(High Bandwidth Memory 3e)内存的GPU芯片。

与当前一代产品相比,最新版本的GH200超级芯片内存容量增加了3.5倍,带宽增加了3倍;相比最热门的H100芯片,其内存增加1.7倍,传输频宽增加1.5倍。

在当前生成式AI不断激增的需求下,GH200超级芯片的推出,进一步吹响了AI算力之战的号角。

性能更高的GH200芯片

据介绍,GH200 Grace Hopper平台的HBM3e内存比当前HBM3快50%,可提供总计10TB/s的带宽。这使得新平台能够运行比上一版本大3.5倍的模型,同时凭借快3倍的内存带宽提升性能。

同时,该平台采用双配置,包括一个拥有144个Arm Neoverse内核、8 petaflops的AI性能和282GB最新HBM3e内存技术的单个服务器。

英伟达创始人兼首席执行官黄仁勋表示:“为了满足对生成式 AI不断激增的需求,数据中心需要能够满足特定需求的加速计算平台。全新GH200 Grace Hopper超级芯片平台以出色的内存技术和带宽,提高了吞吐量,在不影响性能的情况下可连接多GPU以整合性能,并且具有可以轻松部署到整个数据中心的服务器设计。”

据英伟达公布信息,新平台可以通过 NVIDIA NVLink™ 与其他超级芯片连接,使它们能够协同工作,从而部署当下大型生成式AI模型。这种高速、一致性技术使GPU可以完全访问CPU 内存,在双配置中可提供总计1.2TB的快速内存。
在这里插入图片描述

值得注意的是,新平台采用的新款超级芯片GH200与此前发布的H100相比,二者使用同样的GPU,但GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽,内存增加了1.7倍,带宽增加了1.5倍。

新平台和芯片的加持,也让大模型训练的成本得到有效降低。黄仁勋表示,一台服务器可以同时装载两个GH200超级芯片,大型语言模型的推理成本将会大幅降低。

据介绍,投资800万美元Grace Hopper,就相当于8800个价值1亿美元的x86 GPU,意味着成本降低12倍,能耗降低20倍。

英伟达称,GH200已于5月全面投产,基于GH200 Grace Hopper平台的新系统将于2024年第二季度交付。

不过一个关键的问题是,英伟达没有透露超级芯片GH200的价格,这对计算成本高昂的大模型来说尤为重要,H100系列目前售价约为4万美元。

为什么内存对大模型重要?

事实上,GH200超级芯片本身并不是一个新产品,而是今年5月在中国台北Computex展上发布的GH200芯片的更新版。

英伟达超大规模和高性能计算副总裁兼总经理伊恩·巴克(Ian Buck)表示:“我们对这款新的GH200感到非常兴奋。HBM3e不仅增加了GPU的容量和内存量,而且速度也更快。”

但为什么GPU内存这么重要?

这是因为随着支撑生成式人工智能应用程序的基础AI模型尺寸的增加,为了能够在不连接独立芯片和系统的情况下运行,大模型需要更大的内存量,以避免性能下降。

拥有更大的内存允许模型保留在单个GPU上,并且不需要多个系统或多个GPU来运行,而额外的内存只会提高 GPU的性能。

目前即使使用英伟达最顶级的H100芯片,有些模型也必须在其他GPU中“分解”模型才能运行。

据英伟达介绍,最新版本GH200配备141GB的HBM3e内存,旨在处理“世界上最复杂的生成式人工智能工作负载,涵盖大型语言模型、推荐系统和矢量数据库”。

对AI领域的影响

英伟达的GH200超级芯片和DGX GH200超级计算机是AI领域的重大突破,它们为大规模生成式AI工作负载提供了前所未有的性能和内存空间,使得训练千亿甚至万亿参数的巨型模型成为可能。

这些模型可以在自然语言处理、计算机视觉、推荐系统、图形分析等领域实现更高的精度和效率,为人类解决更复杂的问题提供了强大的工具。

在多位AI从业者看来,当前大模型的训练需求过于迫切,对性能的要求也很高,而GPU的适配和生态转移都需要很长时间,因此目前大家都优先选择英伟达,和其他厂商的测试验证也在进行中。

一场新的算力之战已经拉开帷幕,如果说算力是一个江湖,那么此刻英伟达就是一名绝世高手。

它身怀加速计算的绝技,尤其在AI战场上一骑绝尘,似乎每一次都能精准地踏在浪潮的节奏上。从游戏PC市场、到深度学习的崛起、到云计算的普及、再到生成式AI的降临,英伟达的技术所向披靡。

回头看,英伟达早已超越了GPU本身的概念,AI成为最大的标签,算力的绝世武功撑起了新的万亿帝国。

2022年,英伟达推出了多款重磅产品,分别是基于全新Hopper架构的H100 GPU、CPU和GPU的合体Grace Hopper、两个CPU组合的Grace CPU Superchip,CPU的产品在2023年上市。

其中,设计GPU新架构Hopper时,英伟达增添了一个Transformer引擎,专门为Transformer算法做了硬件优化,加快AI计算的效率。

一位国内芯片从业者直言:“H100出来,其实就是一个新时代了,Grace-Hopper再一个组合,加上高配的互联,完全不给活路,英伟达赢家通吃,AMD、Intel继续苦追。”

同时他也表示:“目前国内一些企业还是在盯着CNN做优化,英伟达已经有Transformer引擎,然后AIGC火热,恰好能做支持。这个眼光,只能佩服他们的科学家们对这个领域深刻的认识。”

一位学术界人士也分析道:“从H100上,包括专用的Transformer引擎以及对FP8格式的支持,可以看到计算硬件在向应用定制的方向前进。Grace CPU说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。”

他还表示,Grace CPU通过提高通信带宽和在CPU和GPU之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,存内计算)与业界(CXL,CCI等等系统互联协议)一直在关注的方向是一致的。

总而言之,在GPU和CPU的各种排列组合中,英伟达又将算力提升到了新高度。正如黄仁勋所言:“我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。”

黄仁勋在采访中还提到,数据中心需要用的CPU越来越少,不再是传统上购买数百万个CPU,而是转而购买数百万个GPU。换言之,在他看来,AI算力江湖已经是GPU的主场。

英伟达的野心

事实上,随着ChatGPT引发AI大模型需求热潮,作为加速计算领导者,英伟达今年以来股价累计涨幅已超过210%,近三个月内涨幅就达56%,过去7年股价增长超40倍,目前市值冲破1.1万亿美元。

公开数据显示,英伟达占据全球80%以上的GPU服务器市场份额,同时拥有全球91.4%的企业GPU市场份额。

据投资者服务公司穆迪今年5月份发布的一份研究报告,英伟达在未来几个季度将实现“无与伦比”的收入增长,其数据中心业务的收入将超过竞争对手英特尔和AMD的总和。

但摩根士丹利策略分析师斯坦利(Edward Stanley)在最新报告中称,根据历史背景,英伟达的股价飙升处于“后期”阶段,摩根士丹利认为这标志着 AI 行业的“泡沫”。

GPU持续紧缺下,如今英伟达产品价格已同比上涨超30%,英伟达A800单卡现货近13万元一颗,eBay上H100售价高达4.5万美元。

同时,OpenAI的GPT-4大模型需要至少2.5万张英伟达A100 GPU芯片,而该公司目前至少已拥有1000万颗GPU芯片。

正如黄仁勋常说的,“你GPU买得越多,你越省钱”。主要原因是新的GPU产品能显著提升加速计算,比CPU性能更强、算力更大、功耗更低。

但英伟达的布局还不止于此。

一个现实问题是,高性能的算力也意味着高昂的价格。大模型训练成本动辄成千上百万美元,并不是所有公司都能承受。

而英伟达同时提出了云服务的解决方案NVIDIA AI foundations,黄仁勋表示要做“AI界的台积电”。台积电大大降低了芯片设计公司生产门槛,英伟达也要做代工厂的角色,通过和大模型厂商、云厂商合作提供高性价比的云服务。

在帮助下游企业降低大模型训练成本的同时,英伟达还在逐步参与到上游的产业链升级中。今年,英伟达牵手台积电、ASML、新思,发布了计算光刻库cuLitho。

计算光刻是在芯片设计和制造领域的关键步骤,也是最大的计算负载之一。计算光刻库的技术突破就在于,可以通过部署有大量GPU的DGX AI计算系统对计算光刻进行加速,使其达到原有的基于CPU的计算速度的几十倍,同时降低计算过程的总能耗。

这将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并为曲线掩模、高数值孔径极紫外、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术提供更多可能性。

在多位产业界人士看来,虽然短期内不会影响到下游的应用方面,但是这些上游的研发和升级将长期影响产业的发展,累积形成代际差。

“英伟达在GPU架构的迭代上,一直都有属于自己的发展路径,这几年的发展,也让英伟达跃居AI算力芯片领域的领导者,也因为领先,所以英伟达会思考如何做更多元的布局与行业内的深度合作,这样更能了解行业的需求,比方和台积电等合作便是很好的例子”,某芯片行业专家表示。

当然,英特尔和AMD都已经吹响反攻的号角。

7月,英特尔面向中国市场推出了AI芯片Habana Gaudi 2;6月,AMD推出AI芯片Instinct MI 300X,两者都直接对标英伟达100系列。

目前,在数据中心市场,英伟达和Intel、AMD形成三足鼎立之势。但随着GH200的正式发布,Grace CPU正式登台争角,最应该感到如芒在背的应该是Intel、AMD。虽说大家都知道GH200迟早发布,但等真正发布了,还是有所触动。

围绕着算力的权力游戏还将继续。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/95781.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从LeakCanary看ViewModel生命周期监控

前面两篇文章中已经了解了LeakCanary中Service和Fragment生命周期监控的实现,那么ViewModel生命周期监控又是怎么实现的呢? 同样的,要了解ViewModel生命周期监控,我们首先应该清楚在代码结构中ViewModel是如何存储获取的&#xf…

使用 Python 在 NLP 中进行文本预处理

一、说明 自然语言处理 (NLP) 是人工智能 (AI) 和计算语言学的一个子领域,专注于使计算机能够理解、解释和生成人类语言。它涉及计算机和自然语言之间的交互,允许机器以对人类有意义和有用的方式处理、分析…

SpringBoot代理访问本地静态资源400 404

SpringBoot代理访问静态资源400 404 背景:pdf文件上传到linux服务器上,使用SpringBoot代理访问问题:访问过程中可能会出现400、404问题 前提:保证有文件,并且文件路径正确 SpringBoot如何配置静态资源代理&#xff0…

[python] Kmeans文本聚类算法+PAC降维+Matplotlib显示聚类图像

0 前言 本文主要讲述以下几点: 1.通过scikit-learn计算文本内容的tfidf并构造N*M矩阵(N个文档 M个特征词); 2.调用scikit-learn中的K-means进行文本聚类; 3.使用PAC进行降维处理,每行文本表示成两维数据&…

8 种主流数据迁移工具技术选型

前言 最近有些小伙伴问我,ETL数据迁移工具该用哪些。 ETL(是Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业应用来说,我们经常会遇到各种数据的处理、转换、迁移的场景。 今天特地给大家汇总了一些目前…

pdf怎么合并在一起?这几个合并方法了解一下

pdf怎么合并在一起?在日常工作、学习和生活中,我们常常会遇到需要将多个PDF文件合并成一个文件的情况。比如,在学术论文写作中,我们可能需要将多篇论文合并成一个文件进行打印和提交。在工作中,我们可能需要将多个报告…

STM32——SPI外设总线

SPI外设简介 STM32内部集成了硬件SPI收发电路,可以由硬件自动执行时钟生成、数据收发等功能,减轻CPU的负担 可配置8位/16位数据帧、高位先行/低位先行 时钟频率: fPCLK / (2, 4, 8, 16, 32, 64, 128, 256) 支持多主机模型、主或从操作 可…

耕地单目标语义分割实践——Pytorch网络过程实现理解

一、卷积操作 (一)普通卷积(Convolution) (二)空洞卷积(Atrous Convolution) 根据空洞卷积的定义,显然可以意识到空洞卷积可以提取到同一输入的不同尺度下的特征图&…

excel常见的数学函数篇2

一、数学函数 1、ABS(number):返回数字的绝对值 语法:ABS(数字);返回数字的绝对值;若引用单元格,把数字换为单元格地址即可 2、INT(number):向小取整 语法:INT(数字);若引用单元格…

Element Plus el-table 数据为空时自定义内容【默认为 No Data】

1. 通过 Table 属性设置 <div class"el-plus-table"><el-table empty-text"暂无数据" :data"tableData" style"width: 100%"><el-table-column prop"date" label"Date" width"180" /&g…

Python Opencv实践 - 图像仿射变换

import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg cv.imread("../SampleImages/pomeranian.png", cv.IMREAD_COLOR) rows,cols img.shape[:2] print(img.shape[:2])#使用getAffineTransform来获得仿射变换的矩阵M #cv.getAffineTransform(…

Bingchat和ChatGPT主要区别

Bing Chat由chatgpt GPT-4技术提供支持&#xff0c;这是流行的ChatGPT的最新语言模型。Bing Chat通过更具交互性和上下文联动的响应来优化搜索引擎。它允许用户提出问题并获得更人性化、精确化或创造力的答案。用户还可以在答案末尾查看的参考来源。该工具可以充当个人研究、计…

大数据平台是什么意思?有什么用?一般包含哪些模块?

大数据时代&#xff0c;还有很多人不知道大数据平台是什么意思&#xff1f;有什么用&#xff1f;一般包含哪些模块&#xff1f;今天我们就一起来简单了解一下吧&#xff01;仅供参考哦&#xff01; 大数据平台是什么意思&#xff1f;有什么用&#xff1f;一般包含哪些模块&am…

Lnton羚通关于Optimization在【PyTorch】中的基础知识

OPTIMIZING MODEL PARAMETERS &#xff08;模型参数优化&#xff09; 现在我们有了模型和数据&#xff0c;是时候通过优化数据上的参数来训练了&#xff0c;验证和测试我们的模型。训练一个模型是一个迭代的过程&#xff0c;在每次迭代中&#xff0c;模型会对输出进行猜测&…

工程项目管理系统源码+功能清单+项目模块+spring cloud +spring boot em

​ 工程项目管理软件&#xff08;工程项目管理系统&#xff09;对建设工程项目管理组织建设、项目策划决策、规划设计、施工建设到竣工交付、总结评估、运维运营&#xff0c;全过程、全方位的对项目进行综合管理 工程项目各模块及其功能点清单 一、系统管理 1、数据字典&#…

衣服材质等整理(时常更新)

参考文章&图片来源 https://zhuanlan.zhihu.com/p/390341736 00. 天然纤维 01. 化学纤维 02. 聚酯纤维&#xff08;即&#xff0c;涤纶&#xff09; 一种由有机二元酸和二元醇通过化学缩聚制成的合成纤维。具有出色的抗皱性和保形性&#xff0c;所制衣物在穿着过程中不容…

解决git reset --soft HEAD^撤销commit时报错

今天在使用git回退功能的时候&#xff0c;遇到以下错误&#xff1a; 解决git reset --soft HEAD^撤销commit时报错 问题&#xff1a; 在进行完commit后&#xff0c;想要撤销该commit&#xff0c;于是使用了git reset --soft HEAD^命令&#xff0c;但是出现如下报错&#xff1…

android 12系统加上TTS引擎

系统层修改&#xff1a; 1.frameworks/base/packages/SettingsProvider/res/values/defaults.xml <string name"def_tts"></string> 2.frameworks/base/packages/SettingsProvider/src/com/android/providers/settings/DatabaseHelper.java loadString…

206. 反转链表

给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[5,4,3,2,1]示例 2&#xff1a; 输入&#xff1a;head [1,2] 输出&#xff1a;[2,1]示例 3&#xff1a; 输入&a…