Infiniband网络架构的技术与性能分析

ea63088dec170f57744af353a19f57c8.jpeg

Infiniband格局寡头,性能占优

   

1b2e5b34abb378b9a2c296219de331e5.jpeg

这篇文章探讨了网络交换机的性能优势,以及如何通过扩大模型参数量来提高语言模型的生成和预测能力。然而,计算约束对这种正向关系产生了重要影响,导致在相同的计算约束下,总存在最佳的模型参数量和最大的模型有效程度。因此,如何最大限度地提高集群的计算资源成为了当前的核心问题。

集群算力优化的关键在于GPU利用率和线性加速比。其中,GPU利用率受限于芯片架构、内存访问、互联带宽和功耗等因素;而线性加速比则与节点通信、并行训练框架和资源调度密切相关。

为了设计高效的集群组网方案,满足低时延、大带宽、无阻塞的机间通信,从而降低多机多卡间数据同步的通信耗时,提升GPU有效计算时间比(GPU计算时间/整体训练时间)至关重要。AI大模型对网络建设也提出了新的要求。

优化端到端延迟的方法有很多,例如: * 优化网络拓扑结构,减少数据传输距离。 * 使用高性能网络接口卡,提高数据传输速率。 * 优化数据传输协议,减少数据传输开销。 * 使用分布式训练框架,合理分配数据和计算任务,减少通信量。 通过这些优化措施,可以有效降低端到端延迟,从而显著缩短整体训练时间,提高训练效率。

超大规模组网:千亿-万亿级别AI模型需求庞大的硬件设施及网络延展能力。《新型智算技术白皮书》指出,当万卡集群规模达到临界点时,如何实现最优运算效率、最佳数据处理能力、硬件互联以及网络可用性和易运维等,将成为AI智算中心的重要议题。

2)超高带宽需求:多卡构成的算力集群内,不可避免的存在服务器机内和机间通信。

在模型并行的计算过程中,All Reduce操作产生的通信数据量可达数百GB,这使得GPU间的通信带宽和方式对任务完成时间至关重要。在流水线并行、数据并行和张量并行等模式下,部分集合通信也可能出现数百GB的数据量。这些复杂的通信模式可能导致多对一或一对多的连接同时产生,因此,机间GPU的高速互联对于网络单端口带宽、节点间的可用链路数量以及网络总带宽提出了高要求。

3)超低时延:数据通信传输的时延分为静态和动态时延两个部分。静态时延由转发芯片的能力和传输的距离决定,通常为固定值。动态时延包含了交换机内部排队时延和丢包重传时延,通常由网络拥塞、丢包与网络抖动引起。

4) 超高稳定性与自动化部署:随着卡数量激增,网络稳定性面临挑战,可能导致网络故障和性能波动,进而影响计算节点间的连通性和计算资源利用率。

RDMA(Remote Direct Memory Access,远程直接内存访问)是一种为了解决网络传输中服务器端数据处理延迟而产生的技术。在传统网络中,数据传输涉及多个步骤:首先将数据从源系统的内核复制到网络堆栈,然后通过网络发送。最后,在接收端执行多个步骤后,将数据复制到目标系统的内核中。RDMA可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存。目前RDMA技术的主要采用方案有Infiniband和RoCEv2(基于RDMA的Ethernet技术,后简称为RoCE)两种 。

IB(Infiniband)和RoCE(基于RDMA的Ethernet技术)是目前主流的两种网络技术,IB架构的网络胜在低延迟及高带宽,以太网则优在开放性及性价比。

RoCE是应用相对广泛,相对成熟的网络互联技术,也是整个互联网络大厦的基石,兼容性好,可实现不同的系统之间的互连互通。同时,RoCE的供应商较多,也因此具有相对较强的性价比优势。IB的应用领域很专,作为高带宽、低时延、高可靠的网络互联技术,在HPC集群领域广泛应用。但由于供应商较少,部署成本高于RoCE。

RoCE是足够好的方案,而InfiniBand是特别好的方案。不可否认的是,在超算集群中,IB架构仍是选择相对较多、效率相对较高的互联方式。虽然IB网络结构有性能优势,基于成本和开放性考虑,大多数云计算公司仍表示计划在其生产型人工智能基础设施中使用开源以太网交换机,而不是专有的IB解决方案。

根据亚马逊的高级首席工程师Brian Barrett,AWS之所以放弃IB方案,主要是因为:“云数据中心很多时候是要满足资源调度和共享等一系列弹性部署的需求,专用的IB网络构建的集群如同在汪洋大海中的孤岛”。

2023年7月19日,Linux基金会发起成立开源组织——超以太网联盟UEC (Ultra Ethernet Consortium) ,致力于打造面向AI时代的超大规模新型网络技术及系统。该联盟将提供基于以太网的开放、互操作、高性能全通信栈架构,以满足人工智能和高性能计算日益增长的大规模网络需求。

UEC是由包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软在内的具有数十年的网络、人工智能、云和高性能计算大规模部署经验的公司创立。

InfiniBand技术是一种用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand技术最早引入RDMA协议,从而源生的具有低延迟、大带宽、高可靠的优势。2015年,InfiniBand技术在TOP500榜单中的占比首次超过了50%,达到51.4%(257套),InfiniBand成为超级计算机最首选的内部连接技术 。

目前IB架构的供应商以Nvidia的Mellanox为主。IB协会(InfiniBand TradeAssociation,IBTA)最初由英特尔、微软、SUN公司、IBM、康柏以及惠普公司主导成立。1999年5月,Mellanox由几名从英特尔公司和伽利略技术公司离职的员工,在以色列创立,并于2001年推出了自己首款IB的产品。2002年,原IB阵营的巨头英特尔和微软退出。2010年,Mellanox和Voltaire公司合并,IB主要供应商只剩下Mellanox和QLogic。

2012年,英特尔以1.25亿美元的价格收购了QLogic的IB网络业务重回IB阵营,但不久又以1.4亿美元的价格从Cray手中收购了“Gemini”XT和“Aries”XC超级计算互连业务,后基于IB和Aries打造出了新的Omni-Path互联技术。2013年,Mellanox相继收购了硅光子技术公司Kotura和并行光互连芯片厂商IPtronics,进一步完善了自身产业布局。2015年,Mellanox在全球InfiniBand市场上的占有率达到80%。2019年,英伟达(Nvidia)公司击败对手英特尔和微软,以69亿美元的价格成功收购了Mellanox。

我们以英伟达最新一代GB200产品为例:

1、机柜内部

在单个rack内,包含18个Compute tray(上10下8)和9个Switch tray。这些机柜内的Computetray与Switchtray通过Copper Cable Cartridge相连。借助液冷冷却技术,相较于H100的风冷基础设施,在保持相同功耗的情况下,可实现高达25倍的性能提升。

单个Compute tray配置包括2颗高性能GB200 Grace Blackwell处理器、4颗高速Connectx-800G Infiniband NIC以及1颗Bluefield-3 DPU,为您提供卓越的计算性能和网络连接。

1)GB200 Grace Blackwell Superchip包含两颗Blackwell GPU和一颗Grace CPU。其中,单颗Blackwell GPU架构尺寸是上一代Hopper GPU的两倍,但AI性能(FP4)是Hopper的5倍(单颗Blackwell GPU AI性能(FP8)约为20petaFLOPS,8X24GB的HBM3e,8TB/s的内存带宽),有18个NVlink端口连接18颗NVlink switch chip,实现1.8TB/s双向连接速度。

ConnectX-800GInfiniband Supernic是一种高性能的网络连接器,可以实现端到端800Gb/s的网络连接和性能隔离,专为高效管理多租户生成式AI云而设计。它通过PCle 6.0提供800Gb/s的数据吞吐量。ConnectX-8 Supernic支持单端口OSFP 224和双端口QSFP112连接器,支持NVIDIA Socket Direct 16通道辅助卡扩展 。

Bluefield-3 DPU可以通过400Gb/s以太网或NDR 400Gb/s InfiniBand网络连接,实现卸载、加速和隔离软件定义的网络、存储、安全和管理功能,从而显著提高数据中心的性能、效率和安全性。

单个Switch tray含2颗NVlink Switch芯片,每颗支持4接口、1.8TB/s传输速率。

Switchtray盘提供惊人的性能。每个盘有144个NVlink端口,总带宽高达14.4TB/s。9个这样的盘就能为72个Blackwell GPU提供完全连接,单颗GPU可连接18个NVlink端口。让我们一起探索这个高效的网络架构,释放计算潜力!

在机柜内连接方面,Compute tray与Switch tray通过五代NVlink实现互联,其双向带宽高达1.8TB/s,较上一代提升一倍,且超过PCle Gen5带宽的14倍以上。

"突破性的1.8TB/s GPU-to-GPU通信速度,为AI和高性能计算打开了全新的视野。Computetray的Superchip技术,实现了内部GPU与CPU之间的NVlink Chip-to-Chip双向带宽高达900GB/s,进一步提升了计算效率与性能。"

2、机柜之间

GPU=72在现有硬件配置下,单台机柜内部通过NVlink即可实现L1层switch tray连接。

铜缆是GB200机柜内的首选方案,通过提升单芯片的算力密度和采用高效的液冷技术,GB200在有限的空间内部署了更多的GPU卡,从而使铜缆连接成为更具性价比的选择。然而,由于高速长距离传输可能导致损耗,其未来发展速度和应用稳定性仍需观察。


在现有硬件配置下,单层网络已无法满足GPU>72的要求,需要升级至更高层数网络结构。有单一NVlink、IB组网等方案可供选择。

1)当所需连接的GPU数量大于72小于576时,在NVlink单一组网的方案中,可以使用架构为全NVlink连接的集群,GPU和光模块的数量比例为1:9。单机柜的NVL72方案中的交换机已没有额外的接口进行更大规模的互联,根据推荐,可扩展集群多采用双机柜NVL72方案,单个机柜有18个Compute Tray、9个Switch Tray。与单机柜版本不同的是,双机柜版本Computer Tray仅一颗GraceBlackwellSuperchip(2 Blackwell GPU+1 Grace CPU)。Switch Tray内容单双机柜版本保持一致。

36颗Blackwell GPU充分连接18颗NVswitch chip共有36*18=648个ports,构成576集群的为双排的16个机柜,则累计需连接的端口为648*16=10368个ports,单口单向速率为50GB/s(双向速率100GB/s)。假设L1至L2层网络通过光模块且采用1.6T光模块(200GB/s),则共需要10368*50/200*2=5184个1.6T光模块,GPU:1.6T光模块=576:5184=1:9。

2)当所需链接的GPU数量大于72时,在IB组网的方案中,若使用最新一代NVIDIAQuantum-X800 Q3400交换机互联,根据端口数的不同,同样网络层数所能承载的最多GPU数量不同,GPU和光模块的比例略有区别。相较NVIDIAQuantum-2 QM9700仅有的64个400G的ports而言,最新一代NVIDIAQuantum-X800 Q3400交换机有144个800G的ports,最多可以实现(144^2)/2=10368张GPU的互联。

根据SemiAnalysis预测,2层网络结构的1.6t光模块/GPU占比约2.5%,3层网络结构的占比约3.5%。

模型即服务(MaaS)是一种新型人工智能服务模式,将人工智能算法模型以及相关能力进行封装,以服务的形式对用户提供,其核心目标是降低人工智能技术使用门槛,控制应用建设成本,简化系统架构。

 -对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/419415.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux网络编程IO管理

网络 IO 涉及到两个系统对象,一个是用户空间调用 IO 的进程或者线程,一个是内核空间的内核系统,比如发生 IO 操作 read 时,它会经历两个阶段: 等待内核协议栈的数据准备就绪;将内核中的数据拷贝到用户态的…

随机森林Random Forest(RF)回归预测-MATLAB代码实现

一、随机森林RF(代码获取:底部公众号) 随机森林(Random Forest,RF)是一种机器学习方法,常用于回归预测和分类任务。它通过构建多个决策树,并通过组合它们的预测结果来进行回归预测。…

时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM 单变量和多变量 含基础模型

时序预测|基于粒子群优化支持向量机的时间序列预测Matlab程序PSO-SVM 单变量和多变量 含基础模型 文章目录 一、基本原理1. 问题定义2. 数据准备3. SVM 模型构建4. 粒子群优化(PSO)5. 优化与模型训练6. 模型评估与预测7. 流程总结8. MATLAB 实现概述 二、…

浅谈人工智能之python调用通义千问API

浅谈人工智能之python调用通义千问API API-KEY建立 第一步:我们登录阿里云百炼 第二步:点击界面上查看我的API-KEY 第三步:在跳出来的界面中,点击创建API-KEY 第四步:在跳出来的界面中,在描述中输入“t…

算法——支持向量机(support vector machines,SVM)

简介:个人学习分享,如有错误,欢迎批评指正 支持向量机(Support Vector Machine, SVM)是一种监督学习算法,广泛用于分类任务,也可以用于回归和异常检测等问题。SVM的核心思想是通过在特征空间中找…

Unity【Colliders碰撞器】和【Rigibody刚体】的应用——小球反弹效果

目录 Collider 2D 定义: 类型: Rigidbody 2D 定义: 属性和行为: 运动控制: 碰撞检测: 结合使用 实用检测 延伸拓展 1、在Unity中优化Collider 2D和Rigidbody 2D的性能 2、Unity中Collider 2D…

2024/9/8周报

文章目录 摘要Abstract数据挖掘数据挖掘的目标数据挖掘的过程数据挖掘的技术应用领域工具与平台代码示例 总结 摘要 智慧水务项目中,需要对采集的总氮、氨氮、化学需氧量、硝态氮、总磷、硝态氮等数据进行数据处理与挖掘,因此本周对数据挖掘相关内容进行…

CommonCollections1

CommonCollections1 poc展示 这是一段POC,运行后会弹出一个计算器。 import org.apache.commons.collections.*; import org.apache.commons.collections.functors.ChainedTransformer; import org.apache.commons.collections.functors.ConstantTransformer; im…

C#使用MQTT(二):MQTT客户端

上一篇我们初步设计了MQTT服务端 C#使用MQTT(一):MQTT服务端-CSDN博客 这里我们设计客户端MQTT Client,接上一篇 新建Windows窗体FormMqttClient 窗体FormMqttClient设计如图: 窗体FormMqttClient设计器相关代码如下 文件FormMqttClient.Designer.cs namespace…

uni-app--》打造个性化壁纸预览应用平台(四)完结篇

🏙️作者简介:大家好,我是亦世凡华、渴望知识储备自己的一名前端工程师 🌄个人主页:亦世凡华、 🌆系列专栏:uni-app 🌇座右铭:人生亦可燃烧,亦可腐败&#xf…

论文写作神器!分享5款AI论文写作常用软件推荐

在当今学术研究和写作领域,AI论文写作工具的出现极大地提高了写作效率和质量。这些工具不仅能够帮助研究人员快速生成论文草稿,还能进行内容优化、查重和排版等操作。以下是五款目前最好用的AI论文写作软件推荐: 1. 千笔-AIPassPaper 千笔-…

SpringCache之本地缓存

针对不同的缓存技术,需要实现不同的cacheManager,Spring定义了如下的cacheManger实现。 CacheManger 描述 SimpleCacheManager 使用简单的Collection来存储缓存,主要用于测试 ConcurrentMapCacheManager 使用ConcurrentMap作为缓存技术&…

mac 安装redis

官网下载指定版本的redis https://redis.io/ 目前3.2.0 是最新最稳定的 版本 这里是历史版本下载 下载指定版本 安装 1.放到自定义目录下并解压 2.打开终端,执行命令 cd redis的安装目录下 make test -- 此命令的作用是将redis源代码编译成可执行文件&#xff0c…

java基础概念21-权限修饰符、代码块

一、权限修饰符 1-1、作用 权限修饰符,是用来控制一个成员能够被访问的范围的。 可以修饰:成员变量,方法,构造方法,内部类。 1-2、权限修饰符的分类 二、代码块 局部代码块构造代码块静态代码块 2-1、局部代码块 …

day1 QT

作业 #include "mywidget.h"MyWidget::MyWidget(QWidget *parent): QWidget(parent) {//设置窗口大小this->resize(1025,533);//固定窗口大小this->setFixedSize(1025,533);//设置窗口背景色,设置弧度//this->setStyleSheet("background-image:url(E:/…

肖扬老师好书《微权力下的项目管理(第3版)》读书笔记1

肖扬老师好书《微权力下的项目管理(第3版)》,的确不错,分别共读之。 第2章 精华 为了在项目过程中成为一名优秀的导演,项目经理要同时修炼领导和管理这两种不同的能 力,因为项目管理模式就是一种游走于领导…

计算机网络知识点复习——TCP协议的三次握手与四次挥手(连接与释放)

TCP协议的三次握手与四次挥手(连接与释放) 一、前言二、简单的知识准备1. TCP协议的主要特点2. TCP报文段 三、TCP连接的建立(三次握手)四、TCP连接的释放(四次挥手)五、TCP连接与释放的总结六、结束语 一、…

MySQL record 01 part

更改密码: alter user rootlocalhost identified with mysql_native_password by ‘123456’; 注意: 在命令行方式下,每条MySQL的命令都是以分号结尾的,如果不加分号,MySQL会继续等待用户输入命令,直到MyS…

vue2-elementUI-初始化启动项目-git

前置基础 资料下载-阿里云盘 vueaxioselement-uinpmvscode 初始化项目 1.创建vue2工程 1.1 vue create projectName1.2 选择 1.3 初始化 vue-cli 的核心步骤: Manually select features (*) Babel ( ) TypeScript ( ) Progressive Web App (PWA) Support …

【深度学习讲解笔记】前言

小编为AI专业的本科学生,最近入手了一本《深度学习讲解》的书,由于封面画了苹果🍎,所以也叫苹果书,这本书目前在全网的热度很高。 本书是根据李宏毅老师讲授的《机器学习》课程编写的,作者是来自DataWhale…