大规模AI计算集群的网络环境需求,Infiniband还是超低时延以太网?

01 ChatGPT背后的基础设施:AI计算集群

早在2019年向 OpenAI 投资10亿美元的时候起,微软就同意为这家 AI 初创企业构建一台大型超级计算机。近期,微软在官博上连发两文,亲自解密了这台超级昂贵的超级计算机以及Azure的重磅升级。负责云计算和AI业务的微软副总裁 Scott Guthrie 表示,微软在这个项目上花费了数亿美元,将数以万计的 Nvidia A100 GPU 和 Azure 云计算平台串联在一起

对于诸如 ChatGPT 这类 AI 深度学习模型,巨量的高性能算力无疑是重中之重。但是人们常常容易忽略网络传输在AI训练提速中的作用。尤其是大规模集群分布式训练的场景下,网络扮演了一个极为关键的角色:为了训练一个大型语言模型,计算工作量被分配到集群中成千上万个 GPU 上,这就需要借助高吞吐、低时延的网络达成大算力芯片间的协同工作,以整合海量芯片的算力。

我们从Azure面向“生成式AI”所做的基础设施升级也可以看到,网络互连能力在其中占据了很大比重。

微软推出了 ND H100 v5 虚拟机,它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU,这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与上一代 ND A100 v4 VM 相比,客户将看到人工智能模型的性能显着提高,这些创新技术包括:

  • 8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联
  • 每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无阻塞胖树型网络
  • NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽
  • 第四代英特尔至强可扩展处理器
  • PCIE Gen5到GPU互连,每个GPU有64GB/s带宽
  • 16通道4800MHz DDR5 DIMM

02 微软所选择的InfiniBand,超低时延网络的唯一正解?

InfiniBand(简称IB)网络是通过 InfiniBand 交换机在节点之间直接创建一个专用的受保护通道,并通过 InfiniBand 网卡管理和执行远程直接内存访问(RDMA),与其他网络通信协议相比可以做到更低的延迟。

然而当前IB技术方案被少数海外供应商锁定的状态,给用户带来了诸多不便:首先是IB 交换机的供货周期过长,很容易影响到整体业务的正常上线,推迟的每一天都在白白损失已建成部分的投入成本;转入日常运维阶段后,IB网络的故障排查仍然高度依赖原厂,其售后响应速度也经常为人诟病。

像ChatGPT这类大规模AI计算集群网络,动辄便是上千卡级别的体量。AI大模型训练的固有需求之下,算力侧的成本优化空间相对有限,但如果能在网络侧寻找到与IB性能相近的平替方案,降低前期建设和后期运维等各方面投入,或许是个不错的思路。

自从RoCE(RoCEv2)出现以来,一些以前IB特有的技术比如 RDMA,协议卸载等,现在已经可以在以太网上应用了。不光是AI训练的后端网络,在科研超算、实时云服务、金融高频交易等场景,用优化后的以太网技术去替代 IB也渐渐具有了可行性。

03 低成本以太网代替IB网络的可行性

从网络架构来看,目前较为合适的是基于以太网的三层 CLOS 架构(Spine-leaf),在全盒式组网的情况下,任何两台服务器之间的通信不会超过三台交换机。

从网络层协议来看,下面几类 RDMA 网络中,RoCEv2 的性能较好、部署成本低、兼容性强;但受限于传统以太网“尽力而为”的特性,需要交换机支持构建一张零丢包、低延迟、高性能的无损网络。


 
星融元 CX-N 系列超低时延云交换机作为一款通用的以太网设备,从底层交换芯片到上层的各种协议栈皆面向低时延场景深度优化,可提供 Port to Port ~400ns 的转发时延,全速率下(10G~400G)转发时延相同,并且支持多种数据中心高级功能(如PFC、ECN等)以避免丢包和网络拥塞。

 多个客户曾在现场用我们CX-N系列32 x 100G 的以太网交换机和 32 x 100G IB交换机(Mellanox SB7700)做对比测试,结果显示:CX-N系列以太网交换机的性能可以接近IB交换机,部分数据甚至比IB交换机更好。【详见文末附录】

综上:基于星融元CX-N系列云交换机搭建的超低时延无损以太网能够很好地承载RoCEv2,为用户打造一张高性价比的低时延网络。

【HPC场景】测试结果


   
【分布式存储场景】测试结果
 
 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30929.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软把我们都骗了,它最爱Unix,不是Windows.....

1 很多人都不知道,在上世纪70年代,Unix才是微软的战略产品。 1973年,AT&T对外发布了Unix这个强大、灵活、多用户、多任务的操作系统,Unix在学术界和企业中迅速流行,被广泛应用于小型机和工作站。 而微软&#xff0…

马蹄集 字符判断

字符判断 难度:白银 时间限制:1秒 巴占用内存:64M 输入一个字符,判断是数字字符、大写字母、小写字母、算术运算符、 关系运算符、逻辑运算符,还是其他字符,分别输出Number?”, "Capital letter?”,…

不写代码、年薪百万,带你玩赚ChatGPT提示工程-提示应用程序

文章目录 前言一、数据生成二、PAL (Program-Aided Language Models): Code as Reasoning总结 前言 随着ChatGPT的大火,提示工程在大模型中的重要性不言而喻,本文参考国外Prompt Engineering Guide完成国内中文版本的《提示工程指南》,希望能…

.NET周报【12月第3期 2022-12-23】

由于众所周知的原因,大佬们纷纷加入羊群,笔者也未能幸免,体验下来这绝对不是普通感冒的症状,身体不适,熬了几天,所以本周更新比较晚;另外精力有限,对于国际板块只有链接没有简介&…

如何投资美国股票

5月开始炒美股,投入资金不多,2500美元(按当时汇率为17000元人民币)。几个月来,一直在摸索,其间有赚有赔,到9月下旬,只实现盈亏平衡。但也就是在9月下旬,我摸索出了一条“…

vue 打包出现的空白屏幕 资源无法正常加载问题

你可以在dist index 中看到这样一行字 Were sorry but xxxxxxx doesnt work properly without JavaScript enabled. 大概率是: 在vue.config.js里面添加 pubilcPath:./ (注意这里用相对路径 的./ 而不是绝对路径) 将路由变成hash模式 原因&a…

jupyter notebook 在新安装的环境 安装包后 导入失败: 加载模块失败 ModuleNotFoundError: No module named

新装的环境chatgpt, 命令行conda activate chatgpt 进入后, pip安装各类包包, 装好后在命令行和pycharm(正确设置interpreter后)都能正常导入, 但使用notebook 导入不成功,以tiktoken包为例&…

最大功率点跟踪MPPT

太阳能电池最大功率点跟踪MPPT(Maximum Power Point Tracking)技术能够保证在负载或环境光照强度变化时,光伏电池一直保持最大输出功率,以最大化太阳能利用率。 从太阳能板的I/V伏安特性曲线(绿线)中可以看…

4G DTU在电力远程自动抄表中的应用

随着工业自动化的发展,在原有的人工手动抄表中已经发展到远程智能抄表,通过现有的网络智能化的从远端把需要的数据采集到一起,那么,在很多必须无人值守的设备或监测点,不适合搭建有线通讯网络。若采用光纤或电台的方式…

基于分布鲁棒优化的电-气-热综合能源系统日前经经济调度

1 概述 随着经济的快速发展,化石燃料的燃烧引起的环境恶化问题日益突出。近年来风力发电和光伏发电等可再生能源发电发展迅速,但是风能等可再生能源的发电功率具有波动性且不容易控制。这使得构建一个清洁高效且.能够消纳可再生能源的能源系统的需求更加迫切。综合能源系统是…

主题:基于共享储能电站的工业用户日前优化经济调度

Matlab调用Yalmip工具箱,采用Cplex或Gurobi求解器求解。 主题:基于共享储能电站的工业用户日前优化经济调度 多用户(微网)储能电站日前经济调度,完美复现 ID:6650662269578775老电工了

含分布式电源的配电网日前两阶段优化调度模型(Matlab代码实现)

👨‍🎓 个人主页: 研学社的博客 💥 💥 💞 💞 欢迎来到本博客 ❤️ ❤️ 💥 💥 🏆 博主优势: 🌞 🌞 🌞博客内容…

29考虑特性分布的储能电站接入的电网多时间尺度源储荷协调调度策略MATLAB程序-日前日内实时+需求响应+协调调度

资源地址: 29考虑特性分布的储能电站接入的电网多时间尺度源储荷协调调度策略MATLAB程序-日前日内实时需求响应协调调度-Matlab文档类资源-CSDN文库 参考文献: 考虑特性分布的储能电站接入的电网多时间尺度源储荷协调调度策略——金力 主要内容&…

考虑设备动作损耗的配电网分布式电压无功优化(Matlab代码实现)

目录 1 部分复现 2 概述 3 运行结果 4 Matlab代码实现 1 部分复现 2 概述 从控制策略上电压无功控制主要分为全局控制和分散控制。其中全局控制策略是指由调度中心统一下发指令,例如文献通过求解一个全同性的优化问题集中控制配电网的电压无功设备。基于数据…

太阳能电池最大功率点跟踪MPPT(Maximum Power Point Tracking)技术

太阳能电池最大功率点跟踪MPPT(Maximum Power Point Tracking)技术能够保证在负载或环境光照强度变化时,光伏电池一直保持最大输出功率,以最大化太阳能利用率。 从太阳能板的I/V伏安特性曲线(绿线)中可以看…

光伏发电量和用电量的概率预测研究综述(2)

前言 由于本篇综述实在太长,故分为三部分,此乃第二部分。第一部分:光伏发电量和用电量的概率预测研究综述(1) 目录 3. Forecasting techniques3.1. Statistical approach3.1.1. Parametric3.1.2. Nonparametric 3.2. …

光伏发电系统——mppt最大功率点追踪

在对基于前级boost的最大功率点追踪仿真时候,遇到了很多问题,现在终于做出来了,简单分享一下,由于本系统两级光伏发电系统。后级的DC/AC将直流母线的电压控成了恒定电压源。故本系统和网上常见的mppt追踪有所区别。 本系统的控制&…

基于BP神经网络的电力系统短期负荷预测,简单实用

基于BP神经网络的电力系统短期负荷预测,包含30日的负荷数据和气象特征数据,对31日负荷进行预测,同时与实际负荷进行对比,观察误差。 %创建一个新的BP前向神经网络 %newff—生成一个新的BP前向神经网络 netnewff(minmax(P),[10,12]…

电力消耗模型构建、分析和预测

作者:Minghong Xu 某制药公司每年要花费大量的资金在电费上,由于电力公司的业务改革,该药企可以在一年或月开始时向电力公司预购一定数量的电力,如果实际消耗大于该值,则每多消耗一度电要付比以前更多的电费&#xff0…

光伏发电量和用电量的概率预测研究综述(1)

前言 题目: Review on probabilistic forecasting of photovoltaic power production and electricity consumption 期刊: renewable and sustainable energy reviews 2018 论文地址:Review on probabilistic forecasting of photovoltaic p…