Nvidia主导AI推理竞赛,但新兴对手纷纷崭露头角

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

虽然Nvidia GPU在AI训练领域的主导地位依然不可撼动,但在AI推理方面,竞争对手似乎正在缩小与这家科技巨头的差距,尤其是在能效方面。然而,Nvidia的新款Blackwell芯片的强大性能可能依然难以超越。

今天,ML Commons发布了最新的AI推理竞赛结果,即ML Perf Inference v4.1。这一轮竞赛首次有使用AMD Instinct加速器、最新的Google Trillium加速器、多伦多初创公司UntetherAI的芯片以及Nvidia新款Blackwell芯片的团队参与。另有两家公司,Cerebras和FuriosaAI,宣布了新款推理芯片,但未提交MLPerf竞赛。

MLPerf竞赛类似于奥运会,有许多类别和子类别。本次提交最多的类别是“数据中心封闭”类别。封闭类别要求参赛者在给定模型上运行推理,不能对软件进行重大修改。数据中心类别则测试参赛者的大批量查询处理能力,而边缘类别则更加关注减少延迟。

在每个类别中,有9种不同的基准测试,涵盖不同类型的AI任务。这些任务包括流行的应用场景,如图像生成(如Midjourney)和大型语言模型问答(如ChatGPT),以及同样重要但不太出名的任务,如图像分类、物体检测和推荐引擎。

本轮竞赛还新增了一个名为“专家混合”的基准测试。这是大型语言模型(LLM)部署中日益流行的趋势,其中一个语言模型被分成多个较小的独立模型,每个模型针对特定任务进行微调,如普通对话、解决数学问题和编程辅助。模型可以将每个查询定向到合适的子模型或“专家”组。这种方法能够减少每个查询的资源使用,从而降低成本并提高吞吐量。

在数据中心封闭基准测试的各项任务中,Nvidia的H200 GPU和GH200超级芯片依然表现最佳,这些芯片将GPU和CPU整合在同一个封装内。然而,细看性能结果时,情况变得更加复杂。一些参赛者使用了多个加速器芯片,而另一些只使用了一个。如果我们将每个参赛者能够处理的每秒查询次数按所用加速器数量归一化,并只保留每种加速器类型中表现最好的提交,就会发现一些有趣的细节(需要注意的是,这种方法忽略了CPU和互连的作用)。

在每个加速器基础上,Nvidia的Blackwell在LLM问答任务上表现出2.5倍的性能提升,超越了此前的所有芯片版本。Untether AI的speedAI240 Preview芯片在其唯一提交的任务——图像识别——中几乎与H200持平。Google的Trillium在图像生成方面表现为H100和H200的一半多一点,而AMD的Instinct在LLM问答任务中的表现与H100大致相当。

Blackwell的强大性能

Nvidia Blackwell取得成功的原因之一是其能够以4位浮点精度运行LLM。Nvidia及其竞争对手一直致力于减少在变压器模型(如ChatGPT)的部分计算中使用的比特数,以加快计算速度。Nvidia在H100中引入了8位数学计算,而此次提交则标志着4位数学计算首次在MLPerf基准测试中得到展示。

使用如此低精度的数字的最大挑战在于保持准确性。Nvidia的产品营销总监Dave Salvator表示,为了保持MLPerf提交所需的高准确性,Nvidia团队在软件上进行了重大创新。

另一个重要的贡献是Blackwell的内存带宽几乎翻倍,从H200的4.8 TB/s提升至8 TB/s。

Nvidia提交的Blackwell芯片使用了单个芯片,但Salvator表示,Blackwell是为网络化和扩展而设计的,结合Nvidia的NVLink互连技术后将表现最佳。Blackwell GPU支持最多18个NVLink 100 GB/s连接,总带宽为1.8 TB/s,约为H100互连带宽的两倍。

Salvator认为,随着大型语言模型的规模不断扩大,即使是推理也将需要多GPU平台来满足需求,而Blackwell正是为此设计的。“Blackwell是一个平台,”Salvator表示。

Nvidia在预览子类别中提交了基于Blackwell芯片的系统,这意味着该芯片尚未上市,但预计将在下次MLPerf发布前(六个月后)上市。

Untether AI在功耗和边缘推理中的表现

在每个基准测试中,MLPerf还包括了一个能量测量部分,系统地测试每个系统在执行任务时消耗的电力。在主赛事(数据中心封闭能量类别)中,本轮只有Nvidia和Untether AI提交了结果。虽然Nvidia参与了所有基准测试,但Untether仅提交了图像识别任务。

Untether AI通过一种称为内存计算的方法实现了这一令人印象深刻的效率。UntetherAI的芯片设计为内存单元网格,并在其间分布了小型处理器。这些处理器是并行化的,每个处理器同时处理附近内存单元中的数据,从而大大减少了在内存和计算核心之间传输模型数据所消耗的时间和能量。

Untether AI的这一方法在MLPerf的另一个子类别——边缘封闭——中尤为成功。这个类别面向更为实地的应用场景,如工厂车间的机器检测、引导视觉机器人和自动驾驶汽车——这些应用中低能耗和快速处理至关重要。

在图像识别任务中,UntetherAI的speedAI240 Preview芯片在延迟性能上超越了Nvidia L40S 2.8倍,在吞吐量(每秒样本数)上超越了1.6倍。虽然UntetherAI也在这一类别中提交了功耗结果,但其Nvidia加速的竞争对手没有提交,因此难以进行直接比较。然而,UntetherAI的speedAI240 Preview芯片的标称功耗为150瓦,而Nvidia的L40S为350瓦,从而实现了标称2.3倍的功耗减少并改进了延迟。

Cerebras和Furiosa跳过MLPerf但发布了新芯片

昨天在斯坦福大学举行的IEEE Hot Chips会议上,Cerebras推出了自己的推理服务。这家位于加利福尼亚州Sunnyvale的公司制造了尽可能大的芯片,避免了芯片之间的互连,大幅提高了其设备的内存带宽,这些设备主要用于训练大规模神经网络。现在它已经升级了软件堆栈,以使用其最新的CS3计算机进行推理。

虽然Cerebras没有提交MLPerf,但该公司声称其平台在每秒生成的LLM标记数量上比H100高7倍,比竞争AI初创公司Groq的芯片高2倍。“今天,我们处于生成AI的拨号时代,”Cerebras的CEO兼联合创始人Andrew Feldman表示。“这是因为存在内存带宽瓶颈。无论是Nvidia的H100,还是MI 300或TPU,它们都使用相同的离片内存,产生了相同的限制。我们打破了这一限制,因为我们是晶圆级的。”

Hot Chips会议还见证了首尔公司Furiosa发布其第二代芯片RNGD(发音为“renegade”)。Furiosa芯片的特点是其张量收缩处理器(TCP)架构。AI工作负载中的基本操作是矩阵乘法,通常在硬件中作为基本运算实现。然而,矩阵的大小和形状可以广泛变化,更一般地称为张量。RNGD将张量的乘法作为基本运算实现。Furiosa的创始人兼CEO June Paik在Hot Chips会议上表示:“在推理过程中,批处理大小变化很大,因此利用给定张量形状的内在并行性和数据重用非常重要。”

虽然Furiosa没有提交MLPerf,但该公司在内部比较了其RNGD芯片在MLPerf的LLM摘要基准测试中的表现。其性能与Nvidia的面向边缘的L40S芯片相当,而功耗仅为185瓦,相比之下L40S为320瓦。Paik表示,随着进一步的软件优化,性能还会提高。

IBM也宣布了他们的新款Spyre芯片,专为企业生成AI工作负载设计,将于2025年第一季度上市。

至少,在可预见的未来,AI推理芯片市场的购物者不会感到无聊。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/412095.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考 -- 软件设计师 -- 二轮复习(1) -- 计算机系统基础知识错题集和重点知识(持续更新)

软考 – 软件设计师 – 二轮复习(1) – 计算机系统基础知识错题集和重点知识(持续更新) 文章目录 软考 -- 软件设计师 -- 二轮复习(1) -- 计算机系统基础知识错题集和重点知识(持续更新)前言一、CPU二、内存编址计算三、原码、反码、补码、移码计算四、浮点数 前言 考试时间&a…

给Ubuntu添加硬盘之后,该如何使用

当你给Ubuntu系统添加了新的硬盘后,你需要按照以下步骤来识别、分区、格式化和挂载新硬盘: 1. 检查新硬盘是否被系统识别 首先确认新硬盘已经被系统识别: lsblk 2. 分区新硬盘 如果硬盘没有分区或者需要重新分区,可以使用fdis…

Efficient LoFTR论文阅读(特征匹配)

Efficient LoFTR论文阅读(特征匹配) 摘要1. 引言2. 相关工作基于检测器的图像匹配无检测器图像匹配 3. 方法3.1. 局部特征提取3.2. 高效的局部特征变换3.3. 准备工作3.4. 聚合注意力机制3.5 粗级匹配模块有效推理策略子像素级细化模块有效的精细特征提取…

【vue、Electron】搭建一个Electron vue项目过程、将前端页面打包成exe 桌面应用

文章目录 前言使用 electron-vue 创建项目1. 安装 vue-cli(如果未安装)2. 使用 electron-vue 模板创建项目3. 安装和配置 electron-builder4. 运行Electron项目5. 打包应用 可能遇到的问题解决Electron vue首次启动巨慢无法加载执行npm run electron:bui…

数据结构与算法 第3天(栈和队列)

栈和队列也是线性表,限制插入和删除的位置只能在端点 栈(stack) 后进先出 LIFO 表尾进入,表尾删除 一、案例 案例一:进制转换 例子 159转换成八进制 159/819...7 19/82...3 2/80...2 结果为237 案例二:括…

Superset 连接elasticsearch

官方文档 https://superset.apache.org/docs/databases/elasticsearch/ 安装elasticsearch-dbapi库 pip install elasticsearch-dbapi 安装成功后 有账号密码填入: elasticsearchhttp://{user}:{password}{host}:9200/

SQL 注入之 sqlmap 实战

在网络安全领域,SQL 注入攻击一直是一个严重的威胁。为了检测和利用 SQL 注入漏洞,安全人员通常会使用各种工具,其中 sqlmap 是一款非常强大且广泛使用的开源 SQL 注入工具。本文将详细介绍 sqlmap 的实战用法。 一、sqlmap 简介 sqlmap 是一…

android 将新建的底部导航的demo,修改首页默认显示的字符串为helloworld。

1、先上个图,demo建好了以后,默认显示一个字符串: 2、这个demo的结构: activity_main.xml中用navGraph与其关联。 3、增加方法,给text赋值: package com.example.helloworld.ui.homeimport androidx.lifec…

Linux学习之路 -- systemV进程通信 -- 消息队列和信号量(简单介绍)

一、简介: System V进程通信(System V IPC)是一组在Unix和类Unix操作系统中用于进程间通信的机制。这些机制在System V Release 2中首次引入,并在POSIX标准中得到部分采纳。System V IPC主要包括以下几种通信方式: 消…

数据结构(三)——双向链表,循环链表,内核链表,栈和队列

双链表 产生原因:单链表只有一个指向后继的指针,如果要访问某节点的前驱结点,只能从头遍历,也就是访问后继节点的时间复杂度为1,访问前驱结点的时间复杂度为n。 而引入双链表使得在插入、删除的…

Redis_AOF持久化

AOF持久化 在AOF持久化的过程中,会以日志的方式记录每个redis“写”命令,并且redis服务器重启时重新执行AOF日志文件中的命令,从而达到“恢复数据”的效果 AOF故障恢复 当redis因发生故障而重启时,redis服务器会按照如下步骤根据…

VMware安装中标麒麟操作系统V7.0

1 说明 由于未来的工作需要,今天开始学习DM8数据库,搭建一个实验环境供学习实操使用。配置要求如下: 直接一步到位,在信创平台安装DM8数据库,这里选择了耳熟能详的中标麒麟操作系统,版本为V7.0。以前从未安…

vue手机端 搜索框调起带搜索键盘,点击确认自动关闭

效果如下图 步骤&#xff1a; 1.html,所需配置参数都在下图 <el-form :inline"true" :mode"serchFormf" class"searchForm" action"javascript:return true;"><el-form-item label"" ><el-inputsize"…

【linux002】目录操作命令篇 - ls 命令

文章目录 1、基本用法2、常见选项3、举例演示4、注意事项 ls 命令在 Linux 中用于列出目录内容。它有许多选项和参数可以用来调整显示的格式和内容。 1、基本用法 ls [选项] [文件或目录]2、常见选项 -a 或 --all&#xff1a;显示所有文件&#xff0c;包括以点.开头的隐藏文件…

java 切面日志打印出参入参

切面Controller出入参日志打印 项目结构 切面日志对controller下所有的方法生效 切面代码 Slf4j Aspect Component public class ControllerLogAspect {// 定义一个切点&#xff0c;拦截所有Controller层的public方法Before("execution(public * com.jzt.market.cont…

进程和线程(操作系统八股文part2)

一个操作系统的进程和线程部分的笔记&#xff0c;大部分来源于&#xff1a;小林coding和Javaguide&#xff0c;以及操作系统黑书。 进程和线程 什么是进程 运行中的程序叫进程**&#xff08;Process&#xff09;**。 进程是资源分配的最小单位&#xff0c;线程是执行的最小…

【QT】学习笔记:枚举桌面窗口句柄

在 Qt 中&#xff0c;虽然 Qt 本身没有直接提供枚举桌面窗口的 API&#xff0c;但可以通过调用 Windows API 来实现枚举桌面上所有窗口的句柄&#xff0c;包括子窗口以及子窗口与父窗口的关系。我们可以使用 Windows 的 EnumWindows 和 EnumChildWindows 函数来枚举所有顶层窗口…

K8S声明式的管理方式

一、K8S声明式的管理方式&#xff1a; 1、适合对资源的修改操作 2、声明式管理依赖于yaml文件&#xff0c;所有的内容都在yaml文件中声明 3、编辑好的yml文件还是要靠陈述式命令发布到K8S集群中 二、K8S中支持三种声明式的资源管理方式&#xff1a; 1、deployment格式&…

【YOLO系列】YOLO算法改进史

目录 前言YOLOv1YOLOv2YOLOv3YOLOv4YOLOv5YOLOv6YOLOv7YOLOv8YOLOv9YOLOv10对比待更新 前言 YOLO&#xff08;You Only Look Once&#xff09;是一种革命性的目标检测算法&#xff0c;以其快速和高效的性能而闻名。自2015年YOLOv1的首次推出以来&#xff0c;YOLO系列已经经历了…

Linux常见基础命令

Linux基础 初级学习阶段需要了解的知识一、Linux基础命令查阅命令帮助信息1.man2.help Linux命令的基本实用目录操作文件内容操作查看某文件下的用户操作日志压缩和解压缩sudo用户权限操作用户权限操作TOP文件安装 上一篇 VMware安装linux环境 初级学习阶段需要了解的知识 1.…