人工智能GPU互联技术分析,芯片巨头UALink向英伟达NVLink开战

 芯片巨头组团,向英伟达NVLink开战

  103894d7023e77aa2268d4fcfaa1e37c.jpeg 

八大科技巨头——AMD、博通、思科、Google、惠普企业、英特尔、Meta及微软——联合推出UALink(Ultra Accelerator Link)技术,为人工智能数据中心网络设定全新互联标准。此举旨在打破Nvidia的市场垄断,通过开放标准促进AI加速器间的通信效率。UALink技术的推出,预示着人工智能领域将迎来更加开放、高效的互联新时代。

283b1487fda0a0d719247337eebe526a.jpeg

英伟达,人工智能芯片市场的领军者,GPU份额独占鳌头。其技术优势不止于此,更具备多GPU与系统间的工作负载扩展能力。凭借片上封装互连、NVLink实现GPU间高效通信、Infiniband跨pod扩展,以及以太网连接广泛基础设施,英伟达构筑了全方位的技术生态,引领未来计算新纪元。

行业内企业正采用开放标准反击,角逐细分市场。去年,Ultra Ethernet崭露头角,以增强型以太网为武器,挑战Nvidia的InfiniBand高性能互连标准。InfiniBand作为GPU加速节点连接的事实标准,曾收获丰厚利润,现面临强劲对手。行业变革,一触即发。

今年,我们将迎来全新的Ultra Accelerator Link,简称UALink,这一新标准意在取代Nvidia的NVLink协议及其内存结构NVLink Switch(或称NVSwitch)。在深入剖析UALink之前,让我们先一探NVLink的究竟。UALink,即将开启高性能计算的新篇章,敬请期待。

英伟达的隐形护城河

英伟达GPU与CUDA的深厚积淀构筑了坚实的行业壁垒。然而,其隐形优势亦不容忽视。NVLink作为GPU间高速互联技术,更是英伟达独特护城河之一,彰显其在科技领域的领先地位。

在摩尔定律逐渐失效,但对算力要求越来越高的当下,这种互联显得尤为必要。

英伟达官方网站宣称,NVLink作为全球领先的高速GPU互连技术,为多GPU系统开辟了新路径。相较于传统PCI-E,其速度大幅提升。通过NVLink连接两张NVIDIA GPU,可灵活调整内存与性能,轻松应对专业视觉运算的高负载需求,为行业树立新标杆。

af4ffcc172ba7e170b51438821bafdca.jpeg

NVLink技术最初旨在整合Nvidia GPU内存,后经Nvidia Research进一步研发,实现了通过交换机驱动端口,以创新的杠铃或十字交叉方形拓扑结构,灵活连接两个甚至四个GPU。这一技术革新借鉴了数十年来CPU双插槽和四插槽服务器的构建理念,使得GPU的连接方式更为高效和多样。NVLink不仅提升了计算能力,还为构建更强大的服务器系统奠定了坚实基础。

AI系统曾需八至十六个GPU共享内存,简化编程,实现高速数据访问。2018年,基于“Volta”V100 GPU加速器的DGX-2平台迅速商业化,引入NVSwitch,极大地提升了数据处理效率,标志着AI硬件领域的重要里程碑。

当前,NVLink技术能实现GPU间每秒1.8TB的高速数据传输。更厉害的是,其机架级交换机可在无阻碍计算架构中支持多达576个全连接GPU。借由NVLink相连的GPU构成独立“pod”,每个“pod”均拥有专属的数据与计算域,效能显著。

除了Nvlink,还有PCI总线和Server-to-Server互联两种方式可连接GPU。标准服务器在PCI总线上一般支持4-8个GPU,但借助GigaIO FabreX内存结构等先进技术,该数量可提升至32个,极大扩展了GPU的连接能力。这种技术的运用,为高性能计算提供了更强大的支持。

以太网或InfiniBand连接GPU服务器,实现横向扩展,快速多GPU域经慢速网络连接,构建高效大型计算网络,助力数据处理能力飞跃。

自比特在机器间自由穿梭,以太网便始终是计算机网络的中坚力量。近日,超级以太网联盟的崛起更将这一规范推向高性能新境界。值得一提的是,英特尔已高举互连大旗,其Gaudi-2 AI处理器傲拥24个100千兆以太网连接,展现了以太网技术的无限潜力。

Nvidia未加入超级以太网联盟,原因在于2019年3月对Mellanox的收购,使其稳坐高性能InfiniBand互连市场之冠。超级以太网联盟旨在成为InfiniBand的替代选择,而英特尔曾是InfiniBand技术的领军者。Nvidia通过自身实力,在高性能计算领域展现出独特优势。

在现有条件下,MI300A APU仅能通过AMD Infinity Fabric连接,对于其他用户来说别无选择。类似于InfiniBand/以太网,市场呼唤非Nvidia的"pod空缺"解决方案。UALink应运而生,成为填补这一空白的关键,为行业带来新的竞争格局。

什么是UALink?

超级加速器链(UALink)是提升新一代AI/ML集群性能的高速互连技术。八家行业领军企业(不含英伟达)携手创立开放标准机构,致力于制定技术规范,驱动突破性性能革新,同时支持数据中心加速器的开放生态发展,开启全新应用模式。

917e134e28038acc291b20e9178a542f.jpeg

AI计算需求激增,稳健、低延迟、高效纵向扩展的网络成为关键。制定开放的行业标准规范,对纵向扩展功能至关重要,旨在打造开放、高性能的AI工作负载环境,释放性能极限,满足行业迫切需求。

33ee10d9b56ccc944288f925be0df3de.jpeg

UALink与行业规范在新一代AI数据中心接口标准化中扮演核心角色,特别是AI、机器学习、HPC及云应用方面。工作组将明确规范,确保AI计算容器组中加速器与交换机间实现高效、低延迟的纵向扩展通信,推动技术发展。

从相关资料可以看到,Ultra Accelerator Link 联盟的核心于去年 12 月就已经建立,当时 CPU 和 GPU 制造商 AMD 和 PCI-Express 交换机制造商博通表示,博通未来的 PCI-Express 交换机将支持 xGMI 和 Infinity Fabric 协议,用于将其 Instinct GPU 内存相互连接,以及使用 CPU NUMA 链接的加载/存储内存语义将其内存连接到 CPU 主机的内存。相关消息显示,这将是未来的“Atlas 4”交换机,它将遵循 PCI-Express 7.0 规范,并于 2025 年上市。博通数据中心解决方案集团副总裁兼总经理 Jas Tremblay 证实,这项工作仍在进行中,但不要妄下结论。换而言之,我们不要以为 PCI-Express 是唯一的 UALink 传输,也不要以为 xGMI 是唯一的协议。

AMD 为 UALink 项目贡献了范围更广的 Infinity Fabric 共享内存协议以及功能更有限且特定于 GPU 的 xGMI,而所有其他参与者都同意使用 Infinity Fabric 作为加速器互连的标准协议。

英特尔高级副总裁兼网络和边缘事业部总经理 Sachin Katti 表示,由 AMD、博通、思科系统、谷歌、惠普企业、英特尔、Meta Platforms 和微软组成的 Ultra Accelerator Link“推动者小组”正在考虑使用以太网第 1 层传输层,并在其上采用 Infinity Fabric,以便将 GPU 内存粘合到类似于 CPU 上的 NUMA 的巨大共享空间中。

如下图所示,我们分享了如何使用以太网将 Pod 链接到更大的集群:

1fed7e3e1d07528af88670b1446b373c.jpeg

如thenextplatform所说,没人期望将来自多个供应商的 GPU 连接到一个机箱内,甚至可能是一个机架或多个机架中的一个Pod内。但 UALink 联盟成员确实相信,系统制造商将创建使用 UALink 的机器,并允许在客户构建其舱时将来自许多参与者的加速器放入这些机器中。

您可以有一个带有 AMD GPU 的Pod,一个带有 Intel GPU 的Pod,另一个带有来自任意数量的其他参与者的自定义加速器Pod。它允许在互连级别实现服务器设计的通用性,就像 Meta Platforms 和 Microsoft 发布的开放加速器模块 (OAM) 规范允许系统板上加速器插槽的通用性一样。

简而言之,UALink的独特之处在于,它让行业内的每个人都能与NVIDIA技术保持同步。如今,NVIDIA已能制造NVSwitch盒,并将这些NVSwitch托盘融入诸如NVIDIA DGX GB200 NVL72等产品中,从而引领行业创新,为用户带来更多可能性。

英特尔今年AI加速器销售额飙升至数亿美元,销量或达数万台。AMD紧随其后,将凭借MI300X创收数十亿美元,但仍难以望NVIDIA之项背。值得一提的是,Broadcom等公司凭借UALink技术,打造出UALink交换机,助力企业轻松扩展规模,实现多家公司加速器的灵活联通,这一创新技术正引领行业新风向。

Broadcom Atlas交换机计划挑战AMD Infinity Fabric与NVIDIA NVLink,将UALink V1.0技术融入PCIe Gen7架构。尽管UALink V1.0规范尚未发布,但预计其将显著提升交换机性能。这一创新策略旨在与业界领导者展开竞争,为数据中心互联领域带来革命性变革。

1.0版规范将支持AI容器组连接最多1,024个加速器,实现容器组中加速器(如GPU)内存的直接加载与存储。UALink联盟已成立,预计2024年第三季度正式运作。届时,该规范将向UALink联盟成员公司开放,引领超级加速器链的新篇章,推动AI技术的飞跃发展。

CXL怎么办?

近年来,行业巨头纷纷承诺,基于PCI-Express架构的Compute Express Link (CXL)协议将实现卓越功能。例如,CXLmem子集已率先实现CPU与GPU间的内存共享,预示了该技术的前瞻性与实用性。

但在分析人士看来,PCI-Express 和 CXL 是更广泛的传输和协议。

Katti 强调,AI加速器模块的内存域远超CPU集群,CPU集群通常扩展至2-16个计算引擎。而AI加速器的GPU模块能扩展至数百甚至数千个计算引擎。尤为关键的是,与CPU NUMA集群相比,GPU集群(特别是运行AI工作负载的集群)对内存延迟的容忍度更高,为大规模计算提供了强大支撑。

The Next Platform强调,UALinks不会捆绑CPU,但CXL链接有望成为CPU共享内存的标准方式,甚至可能实现跨架构共享,预示着未来内存共享技术的革新方向。

此举旨在打破NVLink在互连结构内存语义领域的垄断。面对Nvidia的NVLink与NVSwitch,竞争对手需为潜在客户呈现可靠替代方案。无论客户选择GPU还是其他类型加速器或系统,他们均渴望AI服务器节点及机架设备获得更开放、更经济的互连选择,以超越Nvidia的现有技术。

“当我们审视整个数据中心对 AI 系统的需求时,有一点非常明显,那就是 AI 模型继续大规模增长,”AMD 数据中心解决方案事业部总经理 Forrest Norrod 说道。“每个人都可以看到,这意味着对于最先进的模型,许多加速器需要协同工作以进行推理或训练。能够扩展这些加速器对于推动未来大规模系统的效率、性能和经济性至关重要。扩展有几个不同的方面,但 Ultra Accelerator Link 的所有支持者都非常强烈地感受到,行业需要一个可以快速推进的开放标准,一个允许多家公司为整个生态系统增加价值的开放标准。并且允许创新不受任何一家公司的束缚而快速进行。”

AMD Forrest Norrod所指的无疑是Nvidia。Nvidia通过投资InfiniBand,并开创NVSwitch,为GPU打造了无与伦比的NUMA集群,其超大网络带宽令人瞩目。此举源于PCI-Express交换机在总带宽上的局限,Nvidia的突破为行业树立了新标杆。

令人兴奋的是,UALink 1.0规范预计今年第三季度将圆满完成,届时,Ultra Accelerator Consortium也将成为我们的一员,不仅拥有知识产权,还将助力推动UALink标准的不断进步。而到了第四季度,我们将迎来UALink 1.1版本的更新,新版本将在规模和性能上实现显著提升。不过,目前UALink 1.0和1.1规范将支持哪些传输方式,以及是否兼容PCI-Express或以太网传输,仍有待揭晓。让我们拭目以待吧!

NVSwitch 3结构通过NVLink 4端口理论上可支持高达256个GPU的共享内存pod,但Nvidia商业产品仅覆盖8个GPU。升级至NVSwitch 4与NVLink 5端口后,理论支持跃升至576个GPU,但实际应用中,DGX B200 NVL72系统仅提供最多72个GPU的商业支持,彰显Nvidia在高性能计算领域的持续创新与突破。

当前,众多企业正试图通过标准PCIe交换机和基于PCIe的架构来连接更多加速器,然而这仅被视为临时方案。相较之下,NVIDIA的NVLink技术则被视为行业扩展的标杆,引领着加速器连接的新标准。

现在,UAlink团队正准备发布专有 NVLink 的公开竞争对手。

实现这些目标需要时间。在简报会上,有记者问及是否能在2026年左右达成。考虑到2024年尚早,即便技术整合入产品,也不太可能于2025年初就面市。参考CXL和UCIe等标准的漫长落地过程,可以预见,2026年将是一个可行的快速实施节点。

AMD与英特尔等公司,通过复制NVLink和NVSwitch功能并共享开发成果,开辟新途径。博通作为非NVIDIA系统连接提供商,在纵向与横向扩展中均占据优势,成为潜在的最大赢家。无论AMD或英特尔胜出,博通均能获益。对于超大规模企业而言,投资标准化结构,无论端点制造商是谁,均具备深远意义。

值得一提的是,2019-2020年间,CXL in-box与Gen-Z成为行业拓展的焦点。许多Gen-Z的先驱者现已齐聚AMD,共同构建精英团队,致力于应对并突破扩展技术的挑战,持续推动行业创新与发展。

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/350496.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

本地GPT-window平台 搭建ChatGLM3-6B

一 ChatGLM-6B 介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,新一代开源模型 ChatGLM3-6B 已发布,拥有10B以下最强的基础模型,支持工具调用(Function Call)、代码执行(Code Interpreter&…

面试题 17.06. 2出现的次数

题解&#xff1a;. - 力扣&#xff08;LeetCode&#xff09;. - 力扣&#xff08;LeetCode&#xff09; 数位 DP 通用模板_哔哩哔哩_bilibili class Solution { public:int numberOf2sInRange(int n) {std::string str to_string(n);int len str.size();std::vector<std:…

构建旧物回收系统的决策支持系统

内容概要&#xff1a; 在旧物回收系统中&#xff0c;构建一个有效的决策支持系统对于提高管理效率、优化资源配置具有重要意义。本文将探讨如何构建旧物回收系统的决策支持系统&#xff0c;并分析其如何辅助管理者做出更科学的决策。 一、决策支持系统的定义与功能 决策支持…

Ubuntu 18.04下普通用户的一次提权过程

Ubuntu 18.04下普通用户的一次提权过程 一.背景介绍:二.主要调试过程:三.相关命令:1.设置BMC密码,获取BMC IP2.找一台ubuntu搭建TFTP服务,用来替换grub.cfg文件3.从调试服务器的/boot/grub/grub.cfg中提取出recovery mode的配置,简化并生成新的配置文件grub.cfg,放在tftp服务的…

【ARMv8/ARMv9 硬件加速系列 3 -- SVE 指令语法及编译参数详细介绍】

文章目录 SVE 汇编语法SVE 单通道谓词SVE 测试代码 SVE 软件和库支持SVE 编译参数配置-marcharmv8-alseprofilememtagsve2-aessve2-bitpermcryptosve2sve2-sha3sve2-sm4 SVE 汇编语法 在介绍 SVE 汇编指令语法之前&#xff0c;先介绍下如何判断自己所使用的芯片是否实现了SVE功…

第二十三节:带你梳理Vue2:Vue插槽的认识和基本使用

前言: 通过上一节的学习,我们知道了如何将数据从父组件中传递到子组件中, 除了除了将数据作为props传入到组件中,Vue还允许传入HTML, Vue 实现了一套内容分发的 API&#xff0c;这套 API 的设计灵感源自 Web Components 规范草案&#xff0c;将 <slot> 元素作为承载分发…

python 装饰器

装饰器 装饰本质上就是一个闭包函数&#xff0c;它可以对我们已有函数进行额外的功能拓展&#xff0c;装饰器符合了 开发中的封闭开放原则 装饰器的作用 在不改变原有函数的源代码的情况下&#xff0c;给函数增加新的功能 def decorator(fn): # fn: 需要装饰的函数…

2779. 数组的最大美丽值

简单翻译一下题目意思&#xff1a; 对于每个 nums[i] 都可以被替换成 [nums[i]-k, nums[i]k] 区间中的任何数&#xff0c;区间左右是闭的。在每个数字可以替换的前提下&#xff0c;返回数组中最多的重复数字的数量。 第一想法是用一个哈希表&#xff0c;Key 是可以被替换的数…

实现AI口语练习的技术库

国内实现AI口语练习的第三方技术库比较多&#xff0c;以下是一些国内实现AI口语练习的第三方技术库。开发人员可以根据自己的需求选择合适的技术库进行开发。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流合作。 讯飞开放平台&#xff1a; …

python如何对list求和

如何在Python中对多个list的对应元素求和&#xff0c;前提是每个list的长度一样。比如&#xff1a;a[1&#xff0c;2&#xff0c;3]&#xff0c;b[2&#xff0c;3&#xff0c;4]&#xff0c;c[3&#xff0c;4&#xff0c;5]&#xff0c;对a&#xff0c;b&#xff0c;c的对应元素…

14.基于人类反馈的强化学习(RLHF)技术详解

基于人类反馈的强化学习&#xff08;RLHF&#xff09;技术详解 RLHF 技术拆解 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念&#xff0c;我们按三个步骤分解&#xff1a; 预训练一个语言模型 (LM) &#xff1b;训练一个奖励模型 (Reward Model&#xff0c;RM) &#xf…

LeetCode 230.二叉搜索树中第K小的元素

各位看官们&#xff0c;大家好啊&#xff0c;今天这个题我用的方法时间复杂度比较高&#xff0c;但也是便于便于理解的一种方法&#xff0c;大家如果觉得的好的话&#xff0c;就给个免费的赞吧,谢谢大家了^ _ ^ 题目要求如图所示: 题目步骤&#xff1a; 1.我们可以一维数组来接…

值传递和址传递

值传递 上面的代码是想要交换x&#xff0c;y的值&#xff0c;把x&#xff0c;y传递给swap函数之后&#xff0c;执行下面的操作&#xff1a; 在swap中a和b交换了&#xff0c;但是和x&#xff0c;y没有关系&#xff0c;所以x&#xff0c;y在main中不会变。 址传递 下面再看把x…

技术转管理,是灾难还是奇迹?

深耕技术or转战管理&#xff1f;this is a question! 如果你还没有想好&#xff0c;那请继续往下看&#xff01; 技术专家&#xff1a;技术前瞻者、方案构建者、难题破解者、团队聚核者 管理专家&#xff1a;战略规划者、高效组织者、变革引领者、团队建设者 特点和重心都不在…

掌握特劳特定位理论核心,明晰企业战略定位之重

在当今瞬息万变的市场环境中&#xff0c;企业战略定位的重要性日益凸显。它不仅是企业在激烈竞争中保持优势的关键&#xff0c;更是企业实现长期可持续发展的基石。 哈佛大学战略学教授迈克尔波特&#xff08;Michael Porter&#xff09;指出战略就是形成一套独具的运营活动&a…

手撕设计模式——计划生育之单例模式

1.业务需求 ​ 大家好&#xff0c;我是菠菜啊。80、90后还记得计划生育这个国策吗&#xff1f;估计同龄的小伙伴们&#xff0c;小时候常常被”只生一个好“”少生、优生“等宣传标语洗脑&#xff0c;如今国家已经放开并鼓励生育了。话说回来&#xff0c;现实生活中有计划生育&…

CCAA质量管理【学习笔记】​​ 备考知识点笔记(五)质量设计方法与工具

第五节 质量设计方法与工具 1 任 务 分 解 法 1.1 概念 任务分解法&#xff0c;又称工作分解结构 (Work Breakdown Structure, 简 称 WBS) 。WBS 指以可交付成果为 导向&#xff0c;对项目团队为实现项目目标并完成规定的可交付成果而执行的工作所进行的层次分解。W…

Swift开发——循环执行方式

本文将介绍 Swift 语言的循环执行方式 01、循环执行方式 在Swift语言中,主要有两种循环执行控制方式: for-in结构和while结构。while结构又细分为当型while结构和直到型while结构,后者称为repeat-while结构。下面首先介绍for-in结构。 循环控制方式for-in结构可用于区间中的…

电子科技大学卓中卓二轮——分析笔记

1. 子系统的关键工作原理 在Linux子系统&#xff08;Subsystem for Linux, 简称WSL&#xff09;中&#xff0c;API&#xff08;应用程序编程接口&#xff09;的转换和映射是一个关键过程&#xff0c;目的是让Windows应用程序能够与Linux环境中的系统调用无缝交互。WSL使用了名…

JUnit 5学习笔记

JUnit 5 学习笔记 1.JUnit5的改变2.JUnit5常用注解及测试2.1 DisplayName/Disabled/BeforeEach/AfterEach/BeforeAll/AfterAll2.2 Timeout2.3 RepeatedTest 3.断言3.1 简单断言3.2 数组断言3.3 组合断言3.4 异常断言3.5 超时断言3.6 快速失败 4.前置条件5.嵌套测试6.参数化测试…