随着人工智能(AI)技术的飞速发展,计算引擎的性能竞赛也愈演愈烈。近期,MLCommons发布的最新AI训练和推理基准测试结果,他们构建了一套 MLPerf AI 训练和推理基准,将AMD的Instinct“Antares”MI300X GPU与Nvidia的“Hopper”H100、H200以及“Blackwell”B200系列GPU进行了直接对比,为我们揭开了这场算力大战的新篇章。
基准测试初露锋芒
根据MLCommons发布的最新MLPerf AI推理基准测试结果,AMD MI300X在部分AI推理任务中与Nvidia H100的表现不相上下,尤其是在处理Meta Platforms的Llama 2模型(70亿参数)时表现尤为突出。
下面是最新发布的 MLPerf 基准评测结果:
英伟达的 MLPerf 基准评测结果来自英伟达自身,其中也包括使用 Llama 2 70B 模型在单台 Blackwell B200 SXM 上的结果,详情可访问这篇博客:NVIDIA Blackwell Sets New Standard for Gen AI in MLPerf Inference Debut | NVIDIA Blog
AMD 在配备一对当前的「Genoa」Epyc 9004 系列处理器和八台 Antares MI300X GPU 的服务器节点中测试了标准通用基板(UBB),还测试了一台将 Genoa CPU 换成即将推出的「Turin」Epyc 9005 系列 CPU 的机器,该系列 CPU 预计将在下个月左右推出。
AMD 还向 The Next Platform 提供了一张图表,其中展示了在 Genoa 盒子上测试一台 MI300X GPU 的性能,这可以显示节点内 GPU 的扩展性能:
此外,根据我们对GPU和整体系统成本的估算,MI300X在性价比上也极具竞争力。这一成绩对于AMD来说无疑是一个良好的开端,也为未来更多平台的发展奠定了坚实的基础。
以下是关键性能数据和分析:
MI300X
AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 软件库和 runtimes,它类似于英伟达的 CUDA 堆栈。在 MI300X 的张量核心上的峰值 FP16 性能为 1307.4 TFlops,但这是在服务器模式下运行的(也就是使用在现实世界中看到的一种随机查询),可知在运行 Llama 2 70B 模型时,单台 MI300X 每秒生成 2530.7 个 token。因此,Llama 2 性能与假设峰值 Flops 之比为 1.94。当扩展到 8 台 MI300X 设备并换用更高速的 CPU,则这一比值会略微升至 2.01 到 2.11。
H100
虽然MI300X在内存容量上(192GB HBM3)优于H100(80GB HBM),但H100在推理性能比率上更为出色,每秒服务器 token 与峰值 FP16 Flops 的比值是 2.6 或 2.73。这可能要归结于软件调整。针对 H100,CUDA 堆栈和 TensorRT 推理引擎进行了大量调整,现在就可以很好理解前段时间AMD为什么要收购人工智能咨询公司 Silo AI了。
H200
H200在内存(141GB HBM3E)和带宽(4.8 TB/sec)方面的提升,使其在推理性能上比H100提升了56%,这表明内存和带宽的提升对AI推理任务的影响显著。
尽管MI300X表现优异,但在H200面前,仍存在一定的差距,尤其是在高带宽和内存密集型任务上。MI300X 应该具有什么样的内存容量和带宽才能平衡其在推理(可能还有训练)工作负载方面的浮点性能呢?
大家可能倾向于相信 AMD MI300X 和英伟达 H100 之间的性能差异是因为:一致性互连将 GPU 绑定到其各自 UBB 和 HGX 板上的共享内存复合体中。AMD 机器上的是 Infinity Fabric,而英伟达机器上的是 NVSwitch。Infinity Fabric 的每台 GPU 的双向带宽为 128 GB/s,而 NVLink 4 端口和 NVSwitch 3 交换机的带宽为 900 GB/s,因此英伟达机器在内存一致性节点结构上的带宽高 7 倍。
这可能是 Llama 2 工作负载性能差异的一部分原因,但主要原因如下。
单台 MI300X 的峰值性能为 1.31 Pflops,比 H100 或 H200 的 989.5 Tflops(FP16 精度)高出 32.1%,且没有稀疏矩阵重新调整,吞吐量翻倍。MI300X 的内存是 H100 的 2.4 倍,但 Llama 2 推理工作性能仅比 H100 多 7%,并且推理负载仅为 H200 的 60%。根据英伟达进行的测试,相比于配备 180 GB 内存的 Blackwell B200,该设备的工作性能仅为其 23.5%。
据信 B200 的内存也会受限,因此根据 6 月份发布的英伟达路线图,B200 和 B100(可能)将在 2025 年进行内存升级,容量可能会提升到 272 GB 左右。H200 的内存升级会领先于 MI300X,后者的升级将在今年晚些时候体现在 MI32X 上,并会在内存方面领先 B200 Blackwell Ultra 六到九个月。
尽管在Llama 2 70B工作负载中,节点间的高速、大容量互连可能并不那么重要,但这并不意味着它在更大规模的模型或特别是AI训练场景中不重要。因此,我们不应过早地下结论。要等待AMD在秋季发布的AI训练基准测试结果来揭晓答案。
性能与性价比的双重考量
英伟达联合创始人兼首席执行官黄仁勋在今年早些时候宣布Blackwell时表示,这些设备价格将在3.5万至4万美元之间。Hopper GPU价格可能在2.25万美元左右,具体取决于配置。这与黄仁勋在2023年舞台上所说的全配置HGX H100系统板成本20万美元的声明相符。
至于 H200,如果单独购买,价格应该是 3 万美元左右;而MI300X的售价约为2万美元,但这仅是基于理论推测,具体还要看消费者和市场情况。
安装这些GPU的服务器整机(包括两个CPU、大量主内存、网卡和一些闪存存储)的成本大约为15万美元。并且可以插入英伟达的HGX板或AMD的UBB板,构建八路机器。
综合这些成本,可以看到 MI300X 与 H100 一样非常烧钱。
对于 Llama 2 70B 推理任务,H100 系统中平均每台 GPU 每秒可输出 2700 个 token,这比 MI300X 好 7%。H200 的内存是 141 GB,是原来的两倍多,而其推理性能提升了 56%,但 GPU 的价格仅上涨了 33%,因此在GPU和系统层面的性价比更高。
如果B200成本如黄仁勋所说的4万美元,那么在Llama 2 70B测试中,GPU层面的推理成本将几乎减半,系统级别的成本也将减少一半以上。考虑到 Blackwell 的短缺以及希望在给定空间和给定热范围内容纳更多 AI 计算的需求,也有很多人认为B200 GPU 定价会是5万美元/台。
预计Nvidia的Blackwell B200系列GPU将在年底前发布,可能会在性能和性价比上对MI300X形成压制。AMD的下一代MI325X计划在年底发布,这款GPU将具备更高的带宽和内存(288GB HBM3E),可能在性能上有所突破,但能否在价格上保持竞争力仍有待观察。
最后
在AI推理性能方面,AMD MI300X已经证明其在某些任务中可以与Nvidia的H100相媲美,甚至在部分指标上有所超越。随着未来更多新产品的发布和技术的不断进步,AMD有望在AI计算领域取得更大的突破。
对我们来说,选择合适的GPU不仅取决于其当前的性能表现,还需考虑未来的市场趋势、价格波动以及长期的可持续性。随着更多基准测试结果的发布,以及新一代GPU的上市,市场竞争将更加白热化,在选择时需要综合考量多方面因素,以确保在AI项目中获得最佳的性能与性价比。
如果您有服务器相关的问题或需要进一步了解更详细的信息,请随时私信我们。