阿里云引领智算集群网络架构的新一轮变革

阿里云引领智算集群网络架构的新一轮变革

云布道师

11 月 8 日~ 10 日在江苏张家港召开的 CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠先生发表题为《规模 x10 驱动 AI 智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是 Scale up 网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+ 的路标规划,引起广泛关注。

过去一年,阿里云 HPN7.0 引领智算以太网生态蓬勃发展

模型的持续 scaling ,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长 4-6 倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每 2 年才一倍,无法满足算力增长的需求,所以算力来自于将更多的 GPU 进行集群化互联,网络在算力scaling 中扮演关键的角色。

在 2023 年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google 有基于私有协议的 TPU 集群,微软使用了 NV 提供的一整套 IB 方案,而阿里云、 AWS 等公司坚持使用开放的以太网来构建集群。**一时间,以太网还是 IB ,成为智算集群架构选择的关键话题。**阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了 HPN7.0 架构,采用业界首发的全自研 51.2T 交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署 HPN7.0 智算集群的同时,其论文被顶会 SIGCOMM 录取,成为网络顶会历史上首篇 AI 智算网络架构论文。

一年多时间过去了,阿里云 HPN7.0 已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和 IB 的争议已经落幕,以太网正在成为超大规模智算集群的行业主流。

未来几年, X10 规模将给网络带来新的重要问题

虽然以太网和 IB 的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向 X10 规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU 规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间, GPU 资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是 GPU Scale up 范围也将更大,智算集群的网络架构也会因此产生深远的变革。

通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论 Scale up 、 Scale out 都需要更加激进的规划。

GPU Scale up 协议路线之争, Ethernet 优势明显

到底什么是 Scale up ?简单来讲, Scale up 就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是 Scale out 的数倍以上,可以在协议层面优化来支持内存语义。
**不少人以为 Scale up 是机内互联,这是一种误解。**在 8 卡系统的时代,因为 8 卡在一个 OS 内部所以确实是机内互联,然而,当 NVL36 、 72 这种AI rack 的形态出现后, GPU Scale up 就不是“机内互联”,而是一种新型的节点间网络互联。以 NVL72 为例,实际上是 18 台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽 10 倍于 Scale out 的大的带宽( 7.2Tbps vs 800Gbps ),此外还支持了内存操作语义,为了区分,我们继续称其为 GPU Scale up 。
在这里插入图片描述

GPU Scale up 是 AI 系统发展的一个热门话题,备受关注。Scale up 网络大体上可以分成 2 个技术方向。

  • 以 NV 、 Google 为代表的私有协议、封闭系统方案( NVLink 和 TPU 互联)
  • 以各大互联网和云计算公司自研 GPU (微软、 Meta 、 Tesla 等),以及 AMD 、 Intel 为代表的基于Ethernet 的网络传输方案

Ethernet 有超大带宽技术和强大的生态支撑,尤其是 UEC 、高通量以太网等开放组织针对 Scale up 进行协议的升级后, Ethernet 支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋 Scale up 系统都选择了 Ethernet ,可以说 Ethernet 这些特质已经成为 GPU Scale up 网络快速落地的首选技术方案。

计算和网络的新变革,Scale up 融合架构优势明显

Scale up 与 Scale out 如何协同工作是决定集群网络性能的关键。在今天的单机 8 卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的 HPN7.0 架构已经将万卡级别的通信性能发挥到极致。那将来 Scale up 扩展到多机系统,尤其是成百上千卡之后, Scale up 与 Scale out 应该如何协同做到全局效率最高呢 ?机尾 backend 会继续沿着 Scale up + Scale out 两张网络各自发展,还是会融合兼顾 ?
当 Ethernet 成为 Scale up 的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享, Scale up 范围内进行大带宽的 TP 、 EP 、 CP 等通信,多个 Scale up 域通过 Scale out 互联,进行 DP 、 PP 等通信,跨 Scale up 实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up 和 Scale out 的以太网融合为一张网,通过将不同的 Scale up 域进行Scale out 互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。
在这里插入图片描述

未来可期,高通量以太网发布关键路标和超节点 ENode+ 计划

在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的 ENode+ 超节点路线,为高通量以太网的系统化落地构筑蓝图。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/473861.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ASR技术】WhisperX安装使用

介绍 WhisperX 是一个开源的自动语音识别(ASR)项目,由 m-bain 开发。该项目基于 OpenAI 的 Whisper 模型,通过引入批量推理、强制音素对齐和语音活动检测等技术。提供快速自动语音识别(large-v2 为 70 倍实时&#xf…

android framework ams/wms常见系统日志(main\system\events\crash,protoLog使用)

重要性 wms和ams的一些系统原生日志能够帮助我们快速定位问题 日志分类 在日常framework工作中常见的日志类别如下: -b , --buffer Request alternate ring buffer, ‘main’, ‘system’, ‘radio’, ‘events’, ‘crash’, ‘default’ or ‘all’. Additiona…

2024年11月16日 星期六 重新整理Go技术

今日格言 坚持每天进步一点点~ 一个人也可以是一个团队~ 学习全栈开发, 做自己喜欢的产品~~ 简介 大家好, 我是张大鹏, 今天是2024年11月16日星期六, 很高兴在这里给大家分享技术. 今天又是休息的一天, 做了很多的思考, 整理了自己掌握的技术, 比如Java, Python, Golang,…

深度解读混合专家模型(MoE):算法、演变与原理

假设一个专家团队共同解决复杂问题。每位专家都拥有独特的技能,团队通过高效分配任务实现了前所未有的成功。这就是混合专家(Mixture-of-Experts,MoE)模型架构背后的基本思想,这种方法允许机器学习系统,特别…

Area-Composition模型部署指南

一、介绍 本模型可以通过输入不同的提示词,然后根据各部分提示词进行融合生成图片。如下图: 此图像包含 4 个不同的区域:夜晚、傍晚、白天、早晨 二、部署 环境要求: 最低显存:10G 1. 部署ComfyUI 本篇的模型部署…

HTML之列表学习记录

练习题&#xff1a; 图所示为一个问卷调查网页&#xff0c;请制作出来。要求&#xff1a;大标题用h1标签&#xff1b;小题目用h3标签&#xff1b;前两个问题使用有序列表&#xff1b;最后一个问题使用无序列表。 代码&#xff1a; <!DOCTYPE html> <html> <he…

Java基础-内部类与异常处理

(创作不易&#xff0c;感谢有你&#xff0c;你的支持&#xff0c;就是我前行的最大动力&#xff0c;如果看完对你有帮助&#xff0c;请留下您的足迹&#xff09; 目录 一、Java 内部类 什么是内部类&#xff1f; 使用内部类的优点 访问局部变量的限制 内部类和继承 内部…

C/C++中使用MYSQL

首先要保证下载好mysql的库和头文件&#xff0c;头文件在/usr/include/mysql/目录下&#xff0c;库在/usr/lib64/mysql/目录下&#xff1a; 一般情况下&#xff0c;在我们安装mysql的时候&#xff0c;这些都提前配置好了&#xff0c;如果没有就重装一下mysql。如果重装mysql还是…

华为ensp实验二--mux vlan的应用

一、实验内容 1.实验要求&#xff1a; 在交换机上创建三个vlan&#xff0c;vlan10、vlan20、vlan100&#xff0c;将vlan100设置为mux-vlan&#xff0c;将vlan10设置为group vlan&#xff0c;将vlan20设置为separate vlan&#xff1b;实现vlan10的设备在局域网内可以进行互通&…

Redis知识分享(三)

目录 前言 七、事务管理 7.1事务中的异常处理 八、订阅发布 8.1概述 ​8.2.Redis针对发布订阅相关指令 九、主从复制 9.1主从复制概述 9.2.主从复制的用处 9.3主从复制实现原理 ​9.3.1.psync指令 9.3.2.复制偏移量 9.3.3复制积压缓冲区&节点ID 前言 今天…

Java基础-组件及事件处理(中)

(创作不易&#xff0c;感谢有你&#xff0c;你的支持&#xff0c;就是我前行的最大动力&#xff0c;如果看完对你有帮助&#xff0c;请留下您的足迹&#xff09; 目录 BorderLayout布局管理器 说明&#xff1a; 示例&#xff1a; FlowLayout布局管理器 说明&#xff1a; …

【论文阅读】主动推理:作为感知行为的理论

文章目录 主动推理&#xff1a;作为感知行为的理论摘要1.引言2. 主动推理的概念和历史根源3. 主动推理的规范视角—以及它的发展历程 未完待续 主动推理&#xff1a;作为感知行为的理论 Active inference as a theory of sentient behavior 摘要 这篇文章综述了主动推理的历…

HuggingFace:基于YOLOv8的人脸检测模型

个人操作经验总结 1、YOLO的环境配置 github 不论base环境版本如何&#xff0c;建议在conda的虚拟环境中安装 1.1、创建虚拟环境 conda create -n yolov8-face python3.9conda create &#xff1a;创建conda虚拟环境&#xff0c; -n &#xff1a;给虚拟环境命名的…

React--》如何高效管理前端环境变量:开发与生产环境配置详解

在前端开发中&#xff0c;如何让项目在不同环境下表现得更为灵活与高效&#xff0c;是每个开发者必须面对的挑战&#xff0c;从开发阶段的调试到生产环境的优化&#xff0c;环境变量配置无疑是其中的关键。 env配置文件&#xff1a;通常用于管理项目的环境变量&#xff0c;环境…

SpringSecurity+jwt+captcha登录认证授权总结

SpringSecurityjwtcaptcha登录认证授权总结 版本信息&#xff1a; springboot 3.2.0、springSecurity 6.2.0、mybatis-plus 3.5.5 认证授权思路和流程&#xff1a; 未携带token&#xff0c;访问登录接口&#xff1a; 1、用户登录携带账号密码 2、请求到达自定义Filter&am…

计算机视觉和机器人技术中的下一个标记预测与视频扩散相结合

一种新方法可以训练神经网络对损坏的数据进行分类&#xff0c;同时预测下一步操作。 它可以为机器人制定灵活的计划&#xff0c;生成高质量的视频&#xff0c;并帮助人工智能代理导航数字环境。 Diffusion Forcing 方法可以对嘈杂的数据进行分类&#xff0c;并可靠地预测任务的…

2024-11-17 -MATLAB三维绘图简单实例

1. x -1:0.05:1; y x; [X, Y] meshgrid(x, y); f (X, Y) (sin(pi * X) .* sin(pi * Y)) .^ 2.*sin(2.*X2.*Y); mesh(X, Y, f(X, Y)); % 调用函数f并传递X和Y xlabel(X-axis); ylabel(Y-axis); zlabel(Z-axis); title(Surface Plot of (sin(pi * X) .* sin(pi * Y)) .^ 2.*…

WebAssembly在桌面级应用开发中的探索与实践

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 WebAssembly在桌面级应用开发中的探索与实践 WebAssembly在桌面级应用开发中的探索与实践 WebAssembly在桌面级应用开发中的探索…

第二十一周学习周报

目录 摘要Abstract1. LSTM原理2. LSTM反向传播的数学推导3. LSTM模型训练实战总结 摘要 本周的学习内容是对LSTM相关内容的复习&#xff0c;LSTM被设计用来解决标准RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题。LSTM通过引入门控机制来控制信息的流动&#xff0c;从而…

《Spring 基础之 IoC 与 DI 入门指南》

一、IoC 与 DI 概念引入 Spring 的 IoC&#xff08;控制反转&#xff09;和 DI&#xff08;依赖注入&#xff09;在 Java 开发中扮演着至关重要的角色&#xff0c;是提升代码质量和可维护性的关键技术。 &#xff08;一&#xff09;IoC 的含义及作用 IoC 全称为 Inversion of…