承载AI计算的数据中心网络和传统数据中心有何不同?

生成式AI正在风靡全球,不少企业开始研究如何在其业务流程中采用人工智能技术,更有一些企业客户开始考虑在数据中心和私有云中部署自己的AIGC和 GPU 扩展网络。从网络角度来看,用于承载这类业务的数据中心与传统的数据中心有很大不同,它甚至与用于高性能计算 (HPC) 的数据中心也有所区别。

分析AI训练数据的一半时间消耗在网络上

尽管人们都在关注使用GPU服务器处理数据的用时,但实际上人工智能数据的一半处理过程都发生在网络中。所以,我们需要更加关注数据中心网络所能提供的速度和灵活性,以避免其成为整个数据中心的性能瓶颈。

构建高度可扩展的网络是AI数据中心的关键所在,考虑到未来的增长能力,网络交换架构必须包括横向和纵向扩展的硬件,网络操作系统需要带有应对数据包突增、负载平衡和智能流量重定向等数据中心高级功能,这样才可在AIGC网络内超负荷的 GPU 处理单元之间智能地重新路由流量。

工作负载数变少,但规模更大了

与致力于将网络延迟降至超低水平的高性能计算不同,人工智能数据中心的建设必须侧重于高吞吐能力。高性能计算网络旨在同时传输数千个工作负载,并要求将延迟降至最低,而人工智能工作负载的数量要少得多,但规模却大得多。

从速度的角度来看,对于AIGC网络来说,网络吞吐量比网络延迟更重要。如此,用于 HPC 的 InfiniBand 网络结构所具有的超低延迟优势已被削弱,而由于以太网标准具有更高的吞吐能力和更高的性价比,使用吞吐量更高的以太网网络可能很快就会成为常态。

网络部署需要更适应高密度连接

为生成式AI计算部署高密度 GPU 机架并非易事,首先网络布线的难度变大,此外还需要高达四倍的交换机端口密度。根据 Dell’Oro Group 的一份研究报告,到 2027 年,多达 20% 的数据中心交换机端口将分配给 AI 服务器。电源和冷却系统可能也都需要进行对应的调整才能适应更高的密度。

使用多站点或微型数据中心或许是适应这种密度的最佳选择。然而这也给连接这些站点的网络带来了压力,即要求网络尽可能具有更高的传输性能和扩展性。

网络的自动化编排和运维成为必备条件

承载AI的数据中心网络错综复杂,需要为此专门优化性能和提高可靠性,因此我们不应继续使用传统的命令行和第三方性能监控工具来管理 AIGC 网络。相反,企业应该部署一个网络编排平台,从一开始就在控制平面架构中提供一些有用的功能和性能洞察。

编排平台可提供多种优势,大大增强数据中心的管理能力:

  • 自动创建数据中心Underlay网络,大大减少网络开局和网络安全策略所需的时间。
  • 创建直观、自动化的Overlay网络和持续的 NetOps 管理。借助图形用户界面,管理平台可让网络管理员一站式地创建网络和网络安全策略,并自动将命令推送到需要的数据中心交换机而无需学习复杂的命令行。并且策略的创建基于系统内的标准模板,在很大程度上可以消除手动配置错误。
  • 提高性能和网络可视化程度。网络自动化工具还可使用多种传统和现代方法从网络交换硬件中收集和分析交换机健康状况和性能数据。收集和分析网络遥测数据是目前最新的方案:在这种情况下,交换机被配置为使用 gNMI 和 NETCONF 等专用协议标准向协调器发送实时性能测量数据。
  • 与传统的网络监控协议(如SNMP)相比,这些协议功能强大得多,有助于主动识别网络中存在的性能问题,在造成网络瘫痪或中断之前就开始补救。

附录:AIGC网络建设实践方案

方案详情请参阅:客户案例:高性能、大规模、高可靠的AIGC承载网络 (asterfusion.com)

  • 超低TCO、超高性价比:相较于IB网络方案,大幅度降低用户的网络TCO,同时确保超高性能
  • 横向平滑扩容、1:1收敛无阻塞:无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展
  • 整网RoCEv2:基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务
  • 开放网络操作系统:星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级
  • 无缝对接云管:AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管
  • 专家级服务:专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务
     

关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/182708.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM 内存和 GC 算法

文章目录 内存布局直接内存执行引擎解释器JIT 即时编译器JIT 分类AOT 静态提前编译器(Ahead Of Time Compiler) GC什么是垃圾为什么要GC垃圾回收行为Java GC 主要关注的区域对象的 finalization 机制GC 相关算法引用计数算法(Reference Count…

Flink(一)【WordCount 快速入门】

前言 学完了 Hadoop、Spark,本想着先把 Kafka、Flume 这些工具先学完的,但想了想还是把核心的技术先学完最后再去把那些工具学学。 最近心有点累哈哈哈,偷偷立个 flag,反正也没人看,明年的今天来这里还愿哈&#xff0c…

深度学习之基于Yolov5人体姿态摔倒识别分析报警系统(GUI界面)

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 系统设计概述: 传感器采集:通过在场景中布置摄像头或红外传感器等设备,采集人体…

GZ035 5G组网与运维赛题第8套

2023年全国职业院校技能大赛 GZ035 5G组网与运维赛项(高职组) 赛题第8套 一、竞赛须知 1.竞赛内容分布 竞赛模块1--5G公共网络规划部署与开通(35分) 子任务1:5G公共网络部署与调试(15分) 子…

数学到底在哪里支撑着编程?

如果编程语言是血肉,那么数学的思想和知识就是灵魂。它可以帮助你选择合适的数据结构和算法,提升系统效率,并且赋予机器智慧。在大数据和智能化的时代更是如此。举个例子,我们在小学就学过的余数,其实在编程的世界里也…

python基础(Python高级特性(切片、列表生成式)、字符串的正则表达式、函数、模块、Python常用内置函数、错误处理)培训讲义

文章目录 1. Python高级特性(切片、列表生成式)a) 切片的概念、列表/元组/字符串的切片切片的概念列表切片基本索引简单切片超出有效索引范围缺省 扩展切片step为正数step为负数 b) 列表生成式以及使用列表生成式需要注意的地方概念举例说明1. 生成一个列…

Python详细教程,如何使用Python进行数据可视化?

文章目录 前言一、导入必要的库二、加载数据三、创建基本图表四、添加更多细节五、使用Seaborn库创建更复杂的图表关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①Python工具包②Python实战案例③…

3D医学三维技术影像PACS系统源码

一、系统概述 3D医学影像PACS系统,它集影像存储服务器、影像诊断工作站及RIS报告系统于一身,主要有图像处理模块、影像数据管理模块、RIS报告模块、光盘存档模块、DICOM通讯模块、胶片打印输出等模块组成, 具有完善的影像数据库管理功能,强大…

人工智能AI 全栈体系(十二)

第二章 计算机是如何学会下棋的 下棋一直被认为是人类的高智商游戏,从人工智能诞生的那一天开始,研究者就开始研究计算机如何下棋。著名人工智能学者、图灵奖获得者约翰麦卡锡在 50 年代就开始从事计算机下棋方面的研究工作,并提出了著名的 …

北京陪诊小程序|陪诊系统开发|陪诊小程序未来发展不可小觑

近几年随着互联网快速发展,各行业领域都比较注重线上服务系统,通过陪诊小程序开发可以满足更多用户使用需求,同时还能提高用户使用体验。现在陪诊类的软件应用得到全面推广,在医疗行业当中陪诊小程序更贴近用户生活,可…

“七人拼团模式:创新玩法助力平台快速裂变引流“

七人拼团模式是一种结合了社交电商和拼购玩法的快速裂变引流模式。这种模式通过抽取平台营业所得作为奖励补贴用户,以更人性化的奖励机制吸引用户,服务用户,以此加快用户向粉丝的转变,为平台拉取有效流量。本文将介绍七人拼团模式…

什么是防火墙?详解三种常见的防火墙及各自的优缺点

目录 防火墙的定义 防火墙的功能 防火墙的特性 防火墙的必要性 防火墙的优点 防火墙的局限性 防火墙的分类 分组过滤防火墙 优点: 缺点: 应用代理防火墙 优点 缺点 状态检测防火墙 优点 缺点 防火墙的定义 防火墙的本义原是指古代人们…

DCU集群搭建虚拟环境方法简介

1.conda安装方法: wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh #下载miniconda安装包chmod 750 Miniconda3-latest-Linux-x86_64.sh #添加执行权限bash ./Miniconda3-latest-Linux-x86_64.sh #安装下载的minnconda32.集群安装…

VBA根据Excel内容快速创建PPT

示例需求:根据Excel中选中的单元格内容(3列)如下图所示,在已打卡的PowerPoint文件中创建页面。 新增PPT Slide页面使用第二个模板页面,其中包含两个文本占位符,和一个图片占位符。将Excel选中区域中前两列写…

c++实现观察者模式

前言 我觉得这是最有意思的模式&#xff0c;其中一个动&#xff0c;另外的自动跟着动。发布-订阅&#xff0c;我觉得很巧妙。 代码 头文件 #pragma once #include<vector> #include<string> #include<iostream>// 抽象观察者 class Aobserver { public:v…

xlua源码分析(二)lua Call C#的无wrap实现

xlua源码分析&#xff08;二&#xff09;lua Call C#的无wrap实现 上一节我们主要分析了xlua中C# Call lua的实现思路&#xff0c;本节我们将根据Examples 03_UIEvent&#xff0c;分析lua Call C#的底层实现。例子场景里有一个简单的UI面板&#xff0c;面板中包含一个input fie…

使用VSCODE链接Anaconda

打代码还是在VSCODE里得劲 所以得想个办法在VSCODE里运行py文件 一开始在插件商店寻找插件 但是没有发现什么有效果的 幸运的是VSCODE支持自己选择Python的编译器 打开VSCODE 按住CtrlShiftP 输入Select Interpreter 如果电脑已经安装上了Python的环境 VSCODE会默认选择普通…

yolov5--ptq--qat量化之敏感层分析

敏感层分析&#xff0c;应该是发生在ptq量化之前进行分析的操作&#xff0c;经过该操作&#xff0c;可得出哪些层不适合进行量化&#xff0c;则在接下来ptq时可以手动关闭这些层的量化。 进入敏感层分析函数sensitive_analysis中&#xff0c; 具体流程为&#xff1a; 首先验证…

安科瑞变电站综合自动化系统在青岛海洋科技园应用

安科瑞 耿敏花 摘 要&#xff1a;变电站综合自动化系统是将变电站内的二次设备经过功能的组合和优化设计&#xff0c;利用先进的计算机技术、通信技术、信号处理技术&#xff0c;实现对全变电站的主要设备和输、配电线路的自动监视、测量、控制、保护、并与上级调度通信的综合性…

UI设计感大型数据管理仪表盘后台模板源码

大型数据管理仪表盘后台模板是一款适合数据统计管理后台网站模板下载。提示&#xff1a;本模板调用到谷歌字体库&#xff0c;可能会出现页面打开比较缓慢。 演示下载 qnziyw点cn/wysc/qdmb/20838点html