揭穿人工智能服务器的炒作
人工智能的研究已经有几十年了,早在 1960 年代,生成式人工智能就已应用于聊天机器人。然而,2022 年 11 月 30 日发布的 ChatGPT 聊天机器人和虚拟助手席卷了 IT 界,让 GenAI 成为家喻户晓的术语,并掀起了开发人工智能相关硬件和软件的热潮。
通用 AI 和 GenAI 推动力开始增强的一个领域是 AI 服务器。分析公司 IDC 将 AI 服务器定义为运行专用于 AI 应用程序开发的软件平台、主要用于执行 AI 模型的应用程序和/或具有某些 AI 功能的传统应用程序的服务器。
IDC 在 5 月份估计,到 2023 年,AI 服务器将占整个市场的 23% 左右,这一份额未来还将继续增长。IDC 还预测,到 2027 年,AI 服务器收入将达到 491 亿美元,前提是 GPU 加速服务器收入的增长速度将快于其他加速器的收入。
据供应商和销售商称,人工智能服务器和通用服务器之间的区别并不总是那么明显。
联想全球人工智能业务总监罗伯特戴格尔 (Robert Daigle) 表示,很多人在谈论人工智能服务器时,尤其是随着 GenAI 的蓬勃发展,都提到了富含 GPU 的系统,尤其是通常为训练和微调模型而设计的系统。
“[但] 还有很多用于 AI 工作负载的通用服务器,”Daigle 告诉我们。“当你脱离生成式 AI,甚至脱离深度学习,进入传统机器学习时,许多机器学习工作负载仍然在 CPU 上运行。”
Nor-Tech 是明尼苏达州伯恩斯维尔的一家定制系统构建商,也是 Nvidia 的顶级渠道合作伙伴,该公司既构建 AI 服务器,也销售其他制造商的模型。该公司工程副总裁 Dominic Daninger 告诉我们,AI 服务器基本上有两种类型,一种旨在进行训练,另一种在训练完成后旨在进行推理。
Daninger 表示,AI 服务器并不一定需要 GPU 来运行,但它们的性能比 CPU 好得多。
同时,他表示,还要注意的是,并非每台配备 GPU 的服务器都是以 AI 为重点的。诸如模拟模型或液体流动动力学之类的工作负载是使用 GPU 完成的,而不是 AI。
是否需要AI服务器?
加州圣何塞 Supermicro 高级副总裁 Michael McNerney 表示,人工智能服务器和非人工智能服务器之间的界限可能很微妙,取决于工作量。
McNerney表示:“我认为我们有八个不同的主要部分,从 LLM 大规模训练一直到边缘推理服务器,这些服务器将安装在工厂车间的杆式或壁式盒子上。”“我们确实看到人工智能几乎成为系统的一种功能,特别是当你深入到边缘时,这些盒子会根据其配置用于不同的事情。每台服务器在某个时候都可以成为 API 服务器,具体取决于它运行的工作负载类型。”
McNerney 表示,AI 是基于 GPU 的服务器上的主要工作负载,特别是那些通常用于 LLM 或大规模推理的最高配置的服务器,而中端机架式配置可以处理大多数推理工作负载。
Daigle 表示,联想拥有约 80 个经过认证的 AI 就绪服务器平台,可用于 GenAI 和广泛的 AI 领域。
“我们已经采取了一些措施,比如增加这些产品线对 GPU 和加速器的支持,并在它们上运行 MLPerf 等基准测试,以便客户能够看到这些系统的性能,以及我们如何提高性能并增强 AI 工作负载,”他说。“然后是我们在它们上运行的软件堆栈。我们的独立软件供应商生态系统中有 60 多家 AI 公司。这使我们能够实现 165 多种企业级 AI 解决方案。”
戴格尔表示,展望未来,人工智能服务器和通用服务器之间将继续存在界限。
“除了添加支持 AI 的基础设施外,客户还需要在其 IT 环境中支持大量传统工作负载,”他说。“因此,我认为除了扩展到 AI 之外,我们还将继续看到为这些传统 IT 工作负载设计的系统。”
展望未来,丹宁格表示,他预计英特尔和 AMD 将投资于以人工智能为重点的技术,但很难赶上英伟达。
“我们了解到的一件事是,Nvidia 在 CUDA 和真正实现 AI 所需的各种库上投入了大量精力,”他说。“此外,Nvidia 在硬件方面取得了巨大进步。英特尔或 AMD 等公司必须迅速采取行动才能在硬件方面击败 Nvidia,但另一个阻碍是开发所有代码以利用这些东西需要很多年。Nvidia 在这方面遥遥领先。”
McNerney表示,随着AI工作负载的增加,AI服务器集群变得非常重要,这将导致液体冷却的使用增加。
他说道:“我们认为,由于效率、性能和成本节省,在大规模集群空间中,使用液体冷却的部署比例将从不到 1% 上升至 30%。”
下来来看看来自多家服务器供应商和系统构建商的AI服务器样本。
联想 ThinkSystem SR780a V3
ThinkSystem SR780a V3 搭载 8 个 Nvidia H100/H200/B200 Tensor Core GPU,搭配两个第五代英特尔至强可扩展处理器和 32 个 DDR5 DIMM。Nvidia GPU 通过高速 NVLink 互连。该服务器包括联想 Neptune 液冷系统,该公司表示该系统比传统空气冷却更有效地散热,并允许 GPU 和 CPU 长时间以加速模式运行。ThinkSystem SR780a V3 可装入 5U 机箱中。
戴尔 PowerEdge R760xa
Dell PowerEdge R760xa 是一款专用服务器,采用双插槽、2U 风冷外形,支持各种 GPU。它以两个第四代或第五代英特尔至强处理器为中心,每个处理器最多有 64 个内核,并采用片上创新技术来增强 AI 和 ML 操作。该服务器最多有四个双宽 PCIe Gen5 加速器或最多 12 个单宽 PCIe 加速器,并支持 NVIDIA、AMD 和 Intel 的 PCIe GPU 适配器。该服务器提供最多 32 个 DDR5 内存 DIMM 插槽、Gen4 NVLink、PCIe Gen 5 和 E3.S NVMe SSD。
超微 AS-4125GS-TNHR2-LCC
Supermicro 的 AS-4125GS-TNHR2-LCC 配备双插槽 AMD EPYC 9004 系列处理器和八个 Nvidia H100 GPU,通过 Nvidia NVLink 连接,体积紧凑,为 4U。该服务器面向 AI、深度学习和 HPC 应用,配备八个 PCIe 5.0 插槽和 24 个 DIMM 插槽,最多可容纳 6 TB 的 4800 ECC DDR5 内存。液冷可提高性能。
Nor-Tech 通用 GPU 服务器
Nor-Tech 的通用 GPU 服务器提供多架构灵活性和面向未来的开放标准设计,以提供先进且灵活的 GPU 服务器平台。服务器的模块化、基于标准的平台支持多种外形和组合的多种 GPU 技术,可用于大规模 AI 深度学习和 HPC 工作负载。这些 4U 服务器包括双第三代 Intel Xeon 可扩展或 AMD EPYC 7003 系列处理器、一系列行业标准 GPU 外形以及最多 10 个 2.5 英寸 NVMe/SATA 驱动器。可选的 1U 扩展模块可为高达 700 瓦的 GPU 和两个额外的 AIOM/PCIe 插槽提供更高的热容量。
HPE ProLiant DL385 Gen11 服务器
HPE ProLiant DL385 是一款 2U 双插槽服务器,配备第四代 AMD EPYC 9004 系列处理器和高达 6 TB 的 DDR5 内存和 36 个 EDSFF E3.5 NVMe SSD。这些服务器还可以容纳多达四个双宽或八个单宽 Nvidia L4、L40 或 L40S GPU。管理由 HPE GreenLake 提供,用于计算运营管理。
文章来源:我们是否需要AI服务器?推动人工智能繁荣发展的AI服务器-国外VPS网站