科技云报道:从“算力核弹”到生成式AI,新纪元还有多远?

科技云报道原创。

“我们需要更大的GPU”!

3月19日凌晨,一年一度的“AI风向标”重磅会议——GTC 2024如期而至。

英伟达CEO黄仁勋在大会上发布了包括新一代加速计算平台NVIDIA Blackwell、Project GR00T人形机器人基础模型、Omniverse Cloud API、NVIDIA DRIVE Thor集中式车载计算平台等在内的一系列突破性科技成果。

其中,NVIDIA Blackwell作为英伟达的“王炸”力作,再次将AI芯片的技术标准推向了新的高度。
在这里插入图片描述
紧接着,NVIDIA和亚马逊云科技宣布了双方的扩展合作,Blackwell将很快登陆亚马逊云科技,并与亚马逊云科技引以为傲的网络连接、高级虚拟化和超大规模集群等领先技术结合,为数万亿参数规模的大模型推理工作负载带来巨大的性能飞跃。

万亿级参数规模正处在当前全球顶级大模型的实际参数区间,也许用户很快就能在各种生成式AI应用中体验到新硬件带来的提升。

“王炸”AI芯片诞生

训练万亿参数级别的大模型,需要多大规模的算力?

在GTC现场,黄仁勋首先算了一道数学题。以OpenAI最先进的1.8万亿参数大模型为例,该模型需要几万亿的Token进行训练。

万亿参数与数万亿的Token相乘,就是训练OpenAI最先进大模型所需的计算规模。黄仁勋估算,如果用一颗petaflop(每秒钟进行1千万亿次运算)量级的GPU进行运算,需要1000年的时间才能完成。

在Transformer发明后,大模型的规模正在以惊人的速度扩展,平均每6个月就会翻倍,这意味着万亿级别参数并不是大模型的上限。

在这种趋势下,黄仁勋相信,生成式AI的迭代和发展,需要更大的GPU、更快的GPU互连技术、更强大的超级计算机内部连接技术,以及更庞大的超级计算机巨型系统。

一直以来,NVIDIA推出的GPU一般是两种架构,其中面向游戏的GeForce RTX系列GPU是Ada Lovelace架构,面向AI、大数据等应用的专业级显卡是Hopper架构。风靡世界的H100就是基于Hopper架构。

虽然Hopper已经能够满足大部分商用市场的需求,但黄仁勋认为这样还不够:“我们需要更大的GPU,更需要将GPU堆叠在一起。”

于是,同时用以上两种架构类型的产品Blackwell诞生了。Blackwell是英伟达祭出的第六代芯片架构。这块小小的GPU,集成了2080亿个晶体管,拥有着超强的算力,也颠覆了此前所有的产品。

据黄仁勋透露,英伟达为该芯片的研发投入了100亿美元。这一新架构以加州大学伯克利分校数学家David Harold Blackwell命名。他专门研究博弈论和统计学,也是第一位入选美国国家科学院的黑人学者。

Blackwell在单芯片训练方面的FP8性能是其上一代架构的2.5倍,在推理方面的 FP4 性能是其上一代架构的5倍。它具有第五代NVLink互连,速度是Hopper的两倍,并且可扩展至576个GPU。

所以,Blackwell不是一个芯片,而是一个平台。

NVIDIA GB200 Grace Blackwell超级芯片通过900GB/s超低功耗的片间互联,将两个NVIDIA B200 Tensor Core GPU与NVIDIA Grace CPU相连。

其巨大的性能升级,能为人工智能公司提供20 petaflops或每秒2万亿次计算的AI性能,相较于H100,大语言模型性能提升30倍,同时能耗只有1/25。

不难看出,Blackwell平台如此卓越的性能提升,是为了下一代生成式AI做准备。而从OpenAI最近发布的Sora和已经开始研发更强大、更复杂的GPT-5模型也能看出,生成式AI的下一步是多模态和视频,也就意味着更大规模的训练。Blackwell带来了更多可能性。

如今,从谷歌的无边搜索引擎,到亚马逊的云顶天堂,再到特斯拉的智能驾驶,各大科技巨头正纷纷加入NVIDIA的Blackwell阵营,开启了一场令人兴奋的AI加速计算盛宴。

亚马逊、谷歌、戴尔、Meta、微软、OpenAI、Oracle、特斯拉等行业翘楚都在争先恐后地布局,准备在AI新时代大展身手。

难掩战略焦虑

受益于去年以来生成式AI的火爆,2月21日盘后,英伟达公布的最新一季度财报再次打破市场预期。财报显示,2024财年,英伟达总营收达609亿美元,同比增长125.85%;净利润为297.6亿美元,同比增长超581%;调整后每股盈利为12.96美元,同比增长288%。此次已经是英伟达实现连续四个季度的盈利超出市场预期。

英伟达的业绩加速实则反映了全球科技公司对于AI算力需求的激增。随着Sora等应用的横空出世,世人看到了大模型落地的巨大潜力。

生成式 AI很有可能进入“军备竞赛”阶段,与之伴随的是科技公司对芯片的需求也会持续提升。

Counterpoint Research的数据显示,2023年,英伟达的营收将飙升至303亿美元,比2022年的163亿美元增长86%,跃升为2023年全球第三大半导体厂商。

富国银行则预计,英伟达2024年将会在数据中心市场获得高达457亿美元的营收,或创下历史新高。

不过,创造历史的英伟达并非高枕无忧。英伟达在AI计算的“垄断”的现状并不让所有人都满意,竞争对手在竭力打破英伟达的统治地位,客户也需要第二个AI芯片供应源。

尽管英伟达的GPU有很多优点,不过它在用于AI时它可能耗电量太高且编程复杂。从创业公司到其他芯片制造商和科技巨头,英伟达的竞争对手层出不穷。

近期,OpenAI CEO奥尔特曼正在与中东阿布扎比G42基金、日本软银集团等全球投资者筹集超过80亿美元资金,成立一家全新AI 芯片公司,目标是利用资金建立一个工厂网络来制造芯片,直接对标英伟达。

2月17日,业内人士透露,日本投资界巨头软银集团创始人孙正义正在寻求筹集最高达1000亿美元的资金,打造一家规模庞大的合资芯片公司,这家公司能够与芯片设计部门Arm形成互补。

过去,AMD一直在进行其新一代AI战略规划,包括并购和部门重组等,但生成式AI的横空出世导致该公司产品阵容进一步扩充:去年12月发布的MI300芯片专门面向复杂的AI大模型,配置了1530亿个晶体管、192GB的内存、每秒5.3TB的内存带宽,分别是英伟达最强AI芯片H100的大约2倍、2.4倍和1.6倍。

亚马逊云科技也在自研芯片领域进行持续投入,以提升客户云上工作负载性价比。亚马逊云科技很早就面向AI领域推出了Trainium训练芯片和Inferentia推理芯片两个系列,并不断更新迭代。

去年底推出Trainium2能够通过云中扩展和网络互联提供65exaflops的AI算力,数周时间即可完成3千亿参数的大语言模型的训练。这些AI芯片已被使用在包括Anthropic等生成式AI领域的头部企业当中。

这些大厂不约而同地砸下重金,选择自研AI芯片,透露出谁都不想将科技的话语权和主导权交到芯片大厂的手中,只有处于“AI食物链”顶端,才有可能掌握通向未来的钥匙。

研发为底,生态为径

黄仁勋曾在很多地方有过这样的表示:英伟达不是在销售芯片,而是在销售解决问题的能力。

在这种产业生态共建的理念驱动下,英伟达围绕GPU打造了一个涵盖硬件、软件及开发工具在内的生态系统。

例如,英伟达在自动驾驶领域的投资成果显著,其Drive PX系列平台以及后来推出的Drive AGX Orin系统级芯片,成为了众多汽车制造商实现高级驾驶辅助系统(ADAS)和自动驾驶的关键部件,这是底层技术创新与实际应用场景深度融合的成功案例。

面对行业竞争,英伟达希望发挥整体的生态协作力量,共同为产业服务,为市场服务。

英伟达与云计算“一哥”亚马逊云科技的合作同样成果不凡,从第一个GPU云实例到现在的Blackwell平台解决方案,双方的合作已经超过13年。客户很快就能在亚马逊云科技上使用基于NVIDIA GB200 Grace Blackwell Superchip和B100 Tensor Core GPUs的基础设施。

英伟达的超强算力芯片系统与亚马逊云科技强大的Elastic Fabric Adapte(EFA)网络连接能力、高级虚拟化(Amazon Nitro System)和超大规模集群(Amazon EC2 UltraClusters)等领先技术的结合,使得客户能够更快更大规模且更安全地在云上构建和运行数万亿参数的大语言模型。

在大模型研发领域,万亿级参数规模此前还算是一道门槛。根据公开的报道,去年年中发布的GPT4的模型参数是1.8万亿,由8个220B模型组成;前不久发布的Claude3模型没有公布参数规模,而马斯克最新开源的Grok大模型参数是3140亿参数规模。

双方此次合作,有望在加速万亿级别大语言模型的研发方面,为生成式AI领域的突破提供新的可能。

英伟达自身的AI团队专门在亚马逊云科技上构建了Project Ceiba项目,以帮助其推动未来生成式AI的创新。

Ceiba项目首次亮相是在2023年11月底亚马逊云科技2023 re:Invent全球大会上,这是当时英伟达与亚马逊云科技合作建造的世界上最快的AI超级计算之一,当时的计算性能为65 exaflops。

随着Blackwell平台加入Ceiba项目,为其带来了7倍于原先的计算性能,现在,该AI超级计算机将能够处理高达414 exaflops的AI计算量。

新的Ceiba项目拥有20,736颗B200 GPU的超级计算机,采用新型NVIDIA GB200 NVL72系统构建,该系统利用第五代NVLink技术连接10,368颗NVIDIA Grace CPU。

系统还通过亚马逊云科技的第四代EFA网络进行扩展,为每个Superchip提供高达800 Gbps的低延迟、高带宽网络吞吐量。

此外,亚马逊云科技还计划提供配备基于新的英伟达B100 GPU的Amazn EC2实例,并能够在Amazon EC2 UltraClusters中进行大规模部署。

此次合作被黄仁勋抱以更多期待:“人工智能正在以前所未有的速度推动突破,导致新的应用、商业模式和跨行业的创新。

英伟达与亚马逊云科技的合作正在加速新的生成式AI能力的发展,并为客户提供前所未有的计算能力,以推动可能性的边界。”

如此多的行业,如此繁复的创新,英伟达正与其合作伙伴构建起越来越强大的AI生态,共同引领生成式AI的新纪元。用黄仁勋的话说,当计算机图形学、物理学、人工智能交汇,便衍生出NVIDIA的灵魂。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/287776.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【prompt六】MaPLe: Multi-modal Prompt Learning

1.motivation 最近的CLIP适应方法学习提示作为文本输入,以微调下游任务的CLIP。使用提示来适应CLIP(语言或视觉)的单个分支中的表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。在这项工作中,我们提出了针对视觉和语言分支的多模态提示学习(MaPLe),以…

大数据开发(日志离线分析项目)

大数据开发(日志离线分析项目) 一、项目需求1、使用jqueryecharts的方式调用程序后台提供的rest api接口,获取json数据,然后通过jquerycss的方式进行数据展示。工作流程如下:2、七大角度1、用户基本信息分析模块2、浏览…

【计算机视觉】三、图像处理——实验:图像去模糊和去噪、提取边缘特征

文章目录 0. 实验环境1. 理论基础1.1 滤波器(卷积核)1.2 PyTorch:卷积操作 2. 图像处理2.1 图像读取2.2 查看通道2.3 图像处理 3. 图像去模糊4. 图像去噪4.1 添加随机噪点4.2 图像去噪 0. 实验环境 本实验使用了PyTorch深度学习框架,相关操作…

openGauss学习笔记-252 openGauss性能调优-使用Plan Hint进行调优-Scan方式的Hint

文章目录 openGauss学习笔记-252 openGauss性能调优-使用Plan Hint进行调优-Scan方式的Hint252.1 功能描述252.2 语法格式252.3 参数说明252.4 示例 openGauss学习笔记-252 openGauss性能调优-使用Plan Hint进行调优-Scan方式的Hint 252.1 功能描述 指明scan使用的方法&#…

【计算机操作系统】深入探究CPU,PCB和进程工作原理

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

【二叉树】Leetcode 102. 二叉树的层序遍历【中等】

二叉树的层序遍历 给你二叉树的根节点 root ,返回其节点值的 层序遍历 。 (即逐层地,从左到右访问所有节点) 示例1: 输入:root [3,9,20,null,null,15,7] 输出:[[3],[9,20],[15,7]] 解题思路…

elasticsearch基础应用

1._cat接口 | _cat接口 | 说明 | | GET /_cat/nodes | 查看所有节点 | | GET /_cat/health | 查看ES健康状况 | | GET /_cat/master | 查看主节点 | | GET /_cat/indices | 查看所有索引信息 | es 中会默认提供上面的几个索引,表头…

Spring 自定义 CustomQualifier

为什么写这篇文章 Spring 支持类型注入,并且可以通过Qualifier 或者Mate 调整类型注入的范围。但是通过自定义注解结合现有的 Qualifier 使用起来有种种困难。 将 Qualifier 融合在自定义注解中,在使用 AliasFor 遇到问题仅仅检查注解中的一部分内容是否…

外包干了10天,技术倒退明显

先说情况,大专毕业,18年通过校招进入湖南某软件公司,干了接近6年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试&#xf…

Tomcat下载安装以及配置

一、Tomcat介绍 二、Tomcat下载安装 进入tomcat官网,https://tomcat.apache.org/ 1、选择需要下载的版本,点击下载 下载路径一定要记住,并且路径中尽量不要有中文 8、9、10都可以,本博文以8为例 2、将下载后的安装包解压到指定位…

【小黑送书—第十四期】>>重磅升级——《Excel函数与公式应用大全》(文末送书)

今天给大家带来AI时代系列书籍:《Excel 2019函数与公式应用大全》全新升级版,Excel Home多位微软全球MVP专家打造,精选Excel Home海量案例,披露Excel专家多年研究成果,让你分分钟搞定海量数据运算! 由北京…

YOLOv8官方仓库正式支持RT-DETR训练、测试以及推理

YOLOv8太卷啦 | YOLOv8官方仓库正式支持RT-DETR训练、测试以及推理 RT-DETR由百度开发,是一款端到端目标检测器,在保持高精度的同时提供实时性能。它利用ViT的强大特性,通过解耦尺度内交互和跨尺度融合来有效处理多尺度特征。 RT-DETR具有很强…

关闭Elasticsearch built-in security features are not enabled

禁用Kibana安全提示(Elasticsearch built-in security features are not enabled) Kibana提示#! Elasticsearch built-in security features are not enabled. Without authentication, your cluster could be accessible to anyone. See https://www.e…

C语言中位运算介绍

在C语言中,位运算是一种对二进制位进行操作的运算方式,它可以对数据的二进制表示进行位级别的操作,包括按位与、按位或、按位异或、按位取反等。位运算常用于处理底层数据结构、优化代码性能以及实现各种算法。本文将深入介绍C语言中的位运算…

spring 的理解

spring 的理解 spring 是一个基础的框架,同时提高了一个Bean 的容器,用来装载Bean对象spring会帮我们创建Bean 对象并维护Bean对象 的生命周期。在spring 框架上,还有springCloud,spring Boot 的技术框架,都是以Spring为基石的sp…

AIGC工具系列之——基于OpenAI的GPT大模型搭建自己的AIGC工具

今天我们来讲讲目前非常火的人工智能话题“AIGC”,以及怎么使用目前的AI技术来开发,构建自己的AIGC工具 什么是AIGC? AIGC它的英文全称为(Artificial Intelligence Generated Content),中文翻译过来就是“人工智能生成内容”&…

HDFSRPC通信框架详解

本文主要对HDFSRPC通信框架解析。包括listener,reader,handler,responser等实现类的源码分析。注意hadoop版本为3.1.1。 写在前面 rpc肯定依赖于socket通信,并且使用的是java NIO。读者最好对nio有一定的了解,文章中…

《量子计算:揭开未来科技新篇章》

随着科技的不断发展,量子计算作为一项颠覆性的技术逐渐走进人们的视野,引发了广泛的关注和探讨。本文将围绕量子计算的技术进展、技术原理、行业应用案例、未来趋势预测以及学习路线等方向,深入探讨这一领域的前沿动态和未来发展趋势。 量子…

极端道路天气数据集 雨天 雾天 道路晴朗

极端道路天气数据集 是一系列专为自动驾驶、智能交通系统研发以及计算机视觉算法测试而设计的真实世界或模拟的道路环境图像和视频集合。这些数据集包含了在各类极端天气条件下捕捉到的道路场景,例如大雾、暴雨、暴雪、冰雹、雾霾、道路结冰等,这些都是…

移动硬盘未初始化?数据恢复指南助你轻松应对

当我们插上移动硬盘准备使用时,却发现电脑提示“移动硬盘未初始化”,这无疑会让我们感到困扰和焦虑。毕竟,硬盘中可能存储着重要的文件、照片、视频等个人或工作资料。那么,面对移动硬盘未初始化的问题,我们该如何应对…