AMD MI300X vs Nvidia H100/H200:AI计算领域的新一轮较量

随着人工智能(AI)技术的飞速发展,计算引擎的性能竞赛也愈演愈烈。近期,MLCommons发布的最新AI训练和推理基准测试结果,他们构建了一套 MLPerf AI 训练和推理基准,将AMD的Instinct“Antares”MI300X GPU与Nvidia的“Hopper”H100、H200以及“Blackwell”B200系列GPU进行了直接对比,为我们揭开了这场算力大战的新篇章。
在这里插入图片描述

基准测试初露锋芒

根据MLCommons发布的最新MLPerf AI推理基准测试结果,AMD MI300X在部分AI推理任务中与Nvidia H100的表现不相上下,尤其是在处理Meta Platforms的Llama 2模型(70亿参数)时表现尤为突出。

下面是最新发布的 MLPerf 基准评测结果:
在这里插入图片描述
英伟达的 MLPerf 基准评测结果来自英伟达自身,其中也包括使用 Llama 2 70B 模型在单台 Blackwell B200 SXM 上的结果,详情可访问这篇博客:NVIDIA Blackwell Sets New Standard for Gen AI in MLPerf Inference Debut | NVIDIA Blog

AMD 在配备一对当前的「Genoa」Epyc 9004 系列处理器和八台 Antares MI300X GPU 的服务器节点中测试了标准通用基板(UBB),还测试了一台将 Genoa CPU 换成即将推出的「Turin」Epyc 9005 系列 CPU 的机器,该系列 CPU 预计将在下个月左右推出。
在这里插入图片描述
AMD 还向 The Next Platform 提供了一张图表,其中展示了在 Genoa 盒子上测试一台 MI300X GPU 的性能,这可以显示节点内 GPU 的扩展性能:
在这里插入图片描述
此外,根据我们对GPU和整体系统成本的估算,MI300X在性价比上也极具竞争力。这一成绩对于AMD来说无疑是一个良好的开端,也为未来更多平台的发展奠定了坚实的基础。

以下是关键性能数据和分析:

MI300X

AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 软件库和 runtimes,它类似于英伟达的 CUDA 堆栈。在 MI300X 的张量核心上的峰值 FP16 性能为 1307.4 TFlops,但这是在服务器模式下运行的(也就是使用在现实世界中看到的一种随机查询),可知在运行 Llama 2 70B 模型时,单台 MI300X 每秒生成 2530.7 个 token。因此,Llama 2 性能与假设峰值 Flops 之比为 1.94。当扩展到 8 台 MI300X 设备并换用更高速的 CPU,则这一比值会略微升至 2.01 到 2.11。
在这里插入图片描述

H100

虽然MI300X在内存容量上(192GB HBM3)优于H100(80GB HBM),但H100在推理性能比率上更为出色,每秒服务器 token 与峰值 FP16 Flops 的比值是 2.6 或 2.73。这可能要归结于软件调整。针对 H100,CUDA 堆栈和 TensorRT 推理引擎进行了大量调整,现在就可以很好理解前段时间AMD为什么要收购人工智能咨询公司 Silo AI了。

H200

H200在内存(141GB HBM3E)和带宽(4.8 TB/sec)方面的提升,使其在推理性能上比H100提升了56%,这表明内存和带宽的提升对AI推理任务的影响显著。
在这里插入图片描述
尽管MI300X表现优异,但在H200面前,仍存在一定的差距,尤其是在高带宽和内存密集型任务上。MI300X 应该具有什么样的内存容量和带宽才能平衡其在推理(可能还有训练)工作负载方面的浮点性能呢?

大家可能倾向于相信 AMD MI300X 和英伟达 H100 之间的性能差异是因为:一致性互连将 GPU 绑定到其各自 UBB 和 HGX 板上的共享内存复合体中。AMD 机器上的是 Infinity Fabric,而英伟达机器上的是 NVSwitch。Infinity Fabric 的每台 GPU 的双向带宽为 128 GB/s,而 NVLink 4 端口和 NVSwitch 3 交换机的带宽为 900 GB/s,因此英伟达机器在内存一致性节点结构上的带宽高 7 倍。
在这里插入图片描述
这可能是 Llama 2 工作负载性能差异的一部分原因,但主要原因如下。

单台 MI300X 的峰值性能为 1.31 Pflops,比 H100 或 H200 的 989.5 Tflops(FP16 精度)高出 32.1%,且没有稀疏矩阵重新调整,吞吐量翻倍。MI300X 的内存是 H100 的 2.4 倍,但 Llama 2 推理工作性能仅比 H100 多 7%,并且推理负载仅为 H200 的 60%。根据英伟达进行的测试,相比于配备 180 GB 内存的 Blackwell B200,该设备的工作性能仅为其 23.5%。

据信 B200 的内存也会受限,因此根据 6 月份发布的英伟达路线图,B200 和 B100(可能)将在 2025 年进行内存升级,容量可能会提升到 272 GB 左右。H200 的内存升级会领先于 MI300X,后者的升级将在今年晚些时候体现在 MI32X 上,并会在内存方面领先 B200 Blackwell Ultra 六到九个月。
在这里插入图片描述
尽管在Llama 2 70B工作负载中,节点间的高速、大容量互连可能并不那么重要,但这并不意味着它在更大规模的模型或特别是AI训练场景中不重要。因此,我们不应过早地下结论。要等待AMD在秋季发布的AI训练基准测试结果来揭晓答案。

性能与性价比的双重考量

英伟达联合创始人兼首席执行官黄仁勋在今年早些时候宣布Blackwell时表示,这些设备价格将在3.5万至4万美元之间。Hopper GPU价格可能在2.25万美元左右,具体取决于配置。这与黄仁勋在2023年舞台上所说的全配置HGX H100系统板成本20万美元的声明相符。

至于 H200,如果单独购买,价格应该是 3 万美元左右;而MI300X的售价约为2万美元,但这仅是基于理论推测,具体还要看消费者和市场情况。
在这里插入图片描述
安装这些GPU的服务器整机(包括两个CPU、大量主内存、网卡和一些闪存存储)的成本大约为15万美元。并且可以插入英伟达的HGX板或AMD的UBB板,构建八路机器。

综合这些成本,可以看到 MI300X 与 H100 一样非常烧钱。

对于 Llama 2 70B 推理任务,H100 系统中平均每台 GPU 每秒可输出 2700 个 token,这比 MI300X 好 7%。H200 的内存是 141 GB,是原来的两倍多,而其推理性能提升了 56%,但 GPU 的价格仅上涨了 33%,因此在GPU和系统层面的性价比更高。

如果B200成本如黄仁勋所说的4万美元,那么在Llama 2 70B测试中,GPU层面的推理成本将几乎减半,系统级别的成本也将减少一半以上。考虑到 Blackwell 的短缺以及希望在给定空间和给定热范围内容纳更多 AI 计算的需求,也有很多人认为B200 GPU 定价会是5万美元/台。

预计Nvidia的Blackwell B200系列GPU将在年底前发布,可能会在性能和性价比上对MI300X形成压制。AMD的下一代MI325X计划在年底发布,这款GPU将具备更高的带宽和内存(288GB HBM3E),可能在性能上有所突破,但能否在价格上保持竞争力仍有待观察。

最后

在AI推理性能方面,AMD MI300X已经证明其在某些任务中可以与Nvidia的H100相媲美,甚至在部分指标上有所超越。随着未来更多新产品的发布和技术的不断进步,AMD有望在AI计算领域取得更大的突破。

对我们来说,选择合适的GPU不仅取决于其当前的性能表现,还需考虑未来的市场趋势、价格波动以及长期的可持续性。随着更多基准测试结果的发布,以及新一代GPU的上市,市场竞争将更加白热化,在选择时需要综合考量多方面因素,以确保在AI项目中获得最佳的性能与性价比。
在这里插入图片描述
如果您有服务器相关的问题或需要进一步了解更详细的信息,请随时私信我们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/419792.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件开发人员从0到1实现物联网项目:项目架构的思考

文章目录 前言单体应用足矣摒弃传统的微信对接后期的维护投入上真正的“云”:云托管0服务器免运维免费的CDN和DDoS防护 技术架构小结 前言 因为种种原因,《软件开发人员从0到1实现物联网项目》这个项目的进度停滞了将近一个月。 鉴于该项目的前期开发和…

【hot100篇-python刷题记录】【跳跃游戏 II】

R7-贪心算法 目录 方法1: 方法2: 很贪心啊,局部最优解就是全局最优解,要求到达nums[n-1]的最小步数,我们每一步都走最远。 方法1: class Solution:def jump(self, nums: List[int]) -> int:nlen(n…

【车载开发系列】ParaSoft入门介绍

【车载开发系列】ParaSoft入门介绍 【车载开发系列】ParaSoft入门介绍 【车载开发系列】ParaSoft入门介绍一. ParaSoft的背景二. 设计理念三. ParaSoft C/CTest简介四. 具备常用功能1)静态代码分析2)代码覆盖率分析3)模糊测试4)自…

AI边缘控制器:重塑工业自动化与控制的新篇章

在智能制造和工业4.0的浪潮下,AI边缘控制器作为新一代智能控制设备,正逐步成为推动工业自动化与数字化转型的关键力量。这类基于x86架构的高性能IPC(工业个人计算机)形态产品,不仅继承了传统PC的可扩展性、开放性和可视…

RPKI应急管控网络拓扑搭建

应急管控网络拓扑搭建 一、网络拓扑图 二、拓扑配置 1.资源库批量导入roas 在rpki.qcl.edu.cn服务器上的/usr/local/rpki/目录下执行脚本 sh roa_get.sh add#!/bin/dash# TODO Aadd Rremove start10000 sum254 run(){for i in seq 1 20dofor j in seq 1 250doas_numberexpr…

深度学习中常见的损失函数

关注B站可以观看更多实战教学视频:hallo128的个人空间 深度学习中常见的损失函数 损失函数的作用 损失函数是衡量神经网络输出与真实标签之间差距的指标。在训练过程中,神经网络的目标是最小化损失函数的值。常见的损失函数包括均方误差(MS…

弗洛伊德(Floyd)算法(C/C++)

弗洛伊德算法(Floyds algorithm),又称为弗洛伊德-沃尔什算法(Floyd-Warshall algorithm),是一种用于在加权图中找到所有顶点对之间最短路径的算法。这个算法适用于有向图和无向图,并且可以处理负…

网络层 VIII(网络层设备——路由器)【★★★★★★】

一、冲突域与广播域 这里的“域”表示冲突或广播在其中发生并传播的区域。 1. 冲突域 冲突域是指连接到同一物理介质上的所有结点的集合,这些结点之间存在介质争用的现象(能产生冲突的所有设备的集合)。也就是说,若这些设备同时发…

「滚雪球学MyBatis」教程导航帖(已完结)

写在前面 我是bug菌,CSDN | 掘金 | InfoQ | 51CTO | 华为云 | 阿里云 | 腾讯云 等社区博客专家,C站博客之星Top30,华为云2023年度十佳博主,掘金多年度人气作者Top40,掘金等各大社区平台签约作者,51CTO年度博…

酒茶香链接心灵——探寻现代人幸福生活

科技在飞速发展,人类社会以前所未有的速度向前跃进,物质世界的繁荣达到了前所未有的高度。 然而,这光鲜的背后,却无形中拉远了人与人之间的距离,割裂了传统文化的根脉。 传统文化势弱、“快餐文化”层出不穷&#xff0…

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过…

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

Xilinx FPGA 原语解析(二):IBUFDS差分输入缓冲器(示例源码及仿真)

目录 前言: 一、原语使用说明 二、原语实例化代码模版 三、使用示例 1.设计文件代码 2.仿真文件代码 3.仿真结果 前言: 本文主要参考资料xilinx手册,《Xilinx 7 Series FPGA and Zynq-7000 All Programmable SoC Libraries Guide for…

全志A527 A133 A523 T527 T133 H6 H8应用无法开启后台服务

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改4.1 代码修改方法14.2 代码修改方法24.3 代码修改方法35.彩蛋1.前言 像全志的很多平台,普通的app并不能正常的启动后台的服务,这样对于应用层很困扰,无法启动后台的服务,功能就不能正常使用…

【自考zt】【软件工程】【21.10】

关键字: 软件需求基本性质、软件系统需求挑战、耦合(高内容,低无直接)、内聚(初始化时间)、uml包、rup边界类、测试首要目标、单元测试最后工作、性能需求 软件开发本质、软件需求规约三种风格、提炼、用…

【MySQL】MySQL库的操作

目录 创建数据库字符集和效验规则查看系统默认字符集和效验规则查看数据库支持的字符集查看数据库支持的字符集效验规则字符集对数据库的影响 操纵数据库查看数据库显示创建语句修改数据库数据库删除总结 数据库的备份和恢复备份恢复注意事项 查看数据库的连接情况 创建数据库 …

【C++】 Vector

文章目录 1 背景2 什么是 vector?3 vector 特性4 基本函数实现5 基本用法6 例子在 vector 最后移除和插入数据clear() 清除 vector 中所有数据排序访问(直接数组访问&迭代器访问)二维数组两种定义方法 7、参考 1 背景 C 中的容器&#x…

图片转pdf格式怎么弄?非常值得推荐的图片转PDF方法

图片转pdf格式怎么弄?在数字化办公和日常生活中,将图片转换成 PDF 格式已经成为一种常见而有效的处理方式。这种转换不仅能够将多张图片汇总到一个文件中,从而简化管理和共享的过程,还能够确保图像的原始质量和格式不会因不同设备…

WPS如何查看已添加到词典的单词

WPS Office(12.1.0.17827) ① 点击文件,在文件中找到选项 ② 找到拼写检查并点击自定义词典 ③ 如果要删除已添加到词典的"错词",则点击修改 ④ 选择"错词", 点击删除

STM32重定义printf,实现串口打印

在“usart.c”文件中加入以下代码 #ifdef __GNUC__#define PUTCHAR_PROTOTYPE int __io_putchar(int ch) #else#define PUTCHAR_PROTOTYPE int fputc(int ch, FILE *f) #endifPUTCHAR_PROTOTYPE{HAL_UART_Transmit(&huart1 , (uint8_t *)&ch, 1, 0xFFFF);return ch; }…