400G智算网络助力知名自动驾驶企业算力训练提效

根据Gartner的最新趋势预测,自动驾驶技术正迅速发展,预计在未来几年内将带来显著的商业效益,特别是在决策智能和边缘人工智能领域。目前,一家领军企业正积极拥抱基于大模型的数字化转型之路,作为自动驾驶领域的佼佼者,该公司正积极响应这一趋势。公司专注于智能座舱、自动驾驶技术以及网联服务,不断研发高度集成的智能硬件和前沿的软件算法,为消费者打造智能高效的综合出行方案。

当前,企业迫切需要升级自己的智算中心,以满足日益增长的算力需求。这一中心将服务于公司内部的大型模型训练,并为汽车行业的客户提供全面的自动驾驶模型解决方案。

智算网络需要满足算力训练提效需求

为了确保自动驾驶智算中心的顺利搭建和高效运作,必须综合考量硬件的高可靠性、组网方案的成本效益以及网络带宽的可扩展性。该企业提出了三项核心需求:首先,鉴于新能源汽车市场的激烈竞争,方案必须能够尽可能缩短建设周期,以快速相应市场变化。其次智算中心建设是一个长期且成本高昂的投入,因此成本控制至关重要,方案必须确保成本效益最大化。最后,考虑到智算中心的快速迭代特性,必须关注到智算网络的扩展能力,以满足企业未来业务的持续增长和发展需求。

具体来说,在硬件配置上要选用高性能、高可靠性的服务器、存储设备、网络设备以及专业的GPU集群,以满足自动驾驶算法训练对计算能力的严苛要求。在商务成本上和训练效率的双重考量下,对现有的InfiniBand(IB)网络方案进行优化至关重要,这需要全面评估IB网络方案与其他网络方案,确保在满足性能需求的同时,最大限度地降低成本。同时,为了应对未来的技术升级和扩容需求,必须预留足够的空间和容量,以确保智算中心的技术不会迅速变得过时,从而保持其长期的竞争力和市场适应性。

如何构建高速高效的自动驾驶智算中心

经过充分的验证讨论与测试,新华三智算网络解决方案能够无缝对接客户的现有系统,并在性能、可靠性和可扩展性方面媲美IB网络的标准。因此,在众多厂商中脱颖而出。

整体智算网络方案采用存算分离的双平面网络架构,该方案核心组成包含——

  • 计算网络:由42台S9825-64D数据中心交换机组成400G无损计算网;
  • 存储网络:由12台S9820-64H数据中心交换机组成100G无损存储网,支撑17个节点UniStor CX5036G6 分布式高性能并行存储。

方案采用RoCE以太网络架构,并结合创新的二层盒盒架构设计,有效满足了首期网络建设中100台高性能GPU服务器的需求,同时也预留未来扩容的能力。更成熟、效率更好的RoCE技术架构,大幅了缩短部署周期、降低训练时间,并降低成本支出,给客户更高的投资回报率。

S9825-64D数据中心交换机吞吐量测试
S9825-64D数据中心交换机吞吐量测试

在双平面网络架构的设计中,转发平面专责网络数据的传输工作,而控制平面则承担网络管理和控制信息的处理。这种架构通过两个平面的相互备份,极大提升了网络的可靠性与安全性。一旦其中一个平面发生故障,另一个平面能够立即接管其功能,确保网络的持续运行和稳定性。与此相对,单平面网络架构将所有网络功能集中在单一平面上,没有实现控制和数据转发的分离,因此在灵活性和安全性方面存在局限。显然,双平面网络架构在保障网络稳定性和安全性方面,具有显著的优势。

模型训练效率提升11.1%,加快企业大模型开发

新华三提供的RoCE智算网络方案保持了与IB网络相当的计算性能,能够让企业处理更庞大的数据量,其低延迟和高吞吐量特性,显著缩短了企业自动驾驶模型训练时间减少了10%,同时将模型训练效率提升11.1%,并加速了业务处理速度。

400G RoCE网络,为企业未来的带宽升级提供了便利。RoCE基于以太网技术,拥有成熟且广泛的生态系统,这有利于未来技术的升级和方案的演进。预计在未来两年内,数据处理能力将提升50%,而无需进行大规模的网络架构更改。此外,预计在三年内,通过节省的运营成本和提升的业务效率,在 RoCE网络上的投资将得到回收,投资回报率有望提高10%。

从部署效率角度,尽管RoCE网络同样需要手工配置,但由于以太网技术的普及和成熟,部署时间平均缩短了15%,减少了停机时间和人力成本,从而间接节约了综合成本。与IB网络相比,RoCE通常具有更低的设备和维护成本,这在控制整体商务成本方面非常有利。由于以太网组件的普遍性,替换和维护更为经济,从项目整体核算来看,RoCE网络的维护成本比IB网络低约20%

显然,400G智算网络的引入不仅提升了自动驾驶企业算力训练的效率,还为企业的未来发展提供了强大的技术支持和成本优势。随着技术的不断进步和市场需求的不断扩大,该企业有望在全球自动驾驶市场中占据更加重要的地位,为智能出行的未来贡献力量。这一变革不仅标志着自动驾驶技术的新纪元,也为整个汽车行业的发展指明了方向。通过400G智算网络的助力,企业将能够更快地开发和部署先进的自动驾驶模型,为实现更安全、更智能的出行体验奠定坚实的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/486608.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【iOS】OC高级编程 iOS多线程与内存管理阅读笔记——自动引用计数(三)

目录 ARC规则 概要 所有权修饰符 __strong修饰符 __weak修饰符 __unsafe_unretained修饰符 ___autoreleasing修饰符 ARC规则 概要 “引用计数式内存管理”的本质部分在ARC中并没有改变,ARC只是自动地帮助我们处理“引用计数”的相关部分。 在编译单位上可以…

数学活动是什么过程?

有专家说:数学活动是建构的操作过程,建构的过程必须是探索、发现和创造的过程。 什么是建构,建构就是构建,就是建立。明明有让人一看就明白的词,人非得弄得云遮雾绕。 也难怪,现在什么都流行上云。 上云…

windows11安装Linux子系统配置大数据hadoop

zai 1、安装linux子系统 1、启用适用于 Linux 的 Windows 子系统 搜索框里面输入<开发>即可跳转&#xff0c;打开开发人员模式 命令行里面输入systeminfo确定是否电脑已经支持虚拟化&#xff0c;是则可以继续安装: 2、然后先启用“适用于 Linux 的 Windows 子系统”可选…

RPC设计--从reactor设计 (IOthread)

主从reactor架构 一般的一个网络IO库都是主从reactor模式&#xff0c;即主线程中有一个MainReactor&#xff0c;其负责监听ListenFd&#xff0c;当接受到新的用户连接时&#xff0c;返回的clientfd并不会加入的MainReacotr&#xff0c;而是在子线程&#xff08;这里称为IO线程&…

微信创建小程序码 - 数量不受限制

获取小程序码&#xff1a;小程序码为圆图&#xff0c;且不受数量限制。 目录 文档 接口地址 请求方式 功能描述 注意事项 获取 scene 值 请求参数 返回参数 对接 请求方法 获取小程序码 调用获取小程序码 总结 文档 接口地址 https://api.weixin.qq.com/wxa/get…

【机器学习】基于SVM、逻辑回归和CNN的手写数字识别:性能对比与应用分析

基于SVM、逻辑回归和CNN的手写数字识别&#xff1a;性能对比与应用分析 1 基于SVM对手写数字识别2 基于逻辑回归对手写数字进行识别3 基于CNN对手写数字进行识别总结对比分析 1 基于SVM对手写数字识别 在使用SVM方法对手写数字进行识别的时候&#xff0c;我采用了一对多&#…

群控系统服务端开发模式-应用开发-邮件工厂电信189发送开发

一、电信189邮件工厂开发 1、添加框架对应的SDK composer require phpmailer/phpmailer 2、添加电信189邮件工厂 在根目录下extend文件夹下Mail文件夹下channel文件夹下&#xff0c;创建电信189邮件发送工厂并命名为DianxinMailSender。记住&#xff0c;一定要在电信189邮件发…

部署loki,grafana 以及springcloud用法举例

文章目录 场景docker 部署grafanadocker-compose部署loki维护配置文件 local-config.yaml维护docker-compose.yml配置启动 grafana 添加loki数据源springcloud用法举例查看loki的explore,查看日志 场景 小公司缺少运维岗位&#xff0c;需要研发自己部署日志系统&#xff0c;elk…

非常简单实用的前后端分离项目-仓库管理系统(Springboot+Vue)part 4

三十三、出入库管理 Header.vue导一下,RecordController加一个 //将入库数据和原有数据相加吧//新增PostMapping("/save")public Result save(RequestBody Record record) {return recordService.save(record) ? Result.success() : Result.fail();} GoodsManage.v…

Leetcode—1133. 最大唯一数【简单】Plus

2024每日刷题&#xff08;205&#xff09; Leetcode—1133. 最大唯一数 C 实现代码 class Solution { public:int largestUniqueNumber(vector<int>& nums) {constexpr int MAX 1000;vector<int> count(MAX 1, 0);for(int num: nums) {count[num];}for(int…

如何通过自学成长为一名后端开发工程师?

大家好&#xff0c;我是袁庭新。最近&#xff0c;有星友向我提出了一个很好的问题&#xff1a;如何通过自学成为一名后端开发工程师&#xff1f; 为了解答这个疑问&#xff0c;我特意制作了一个视频来详细分享我的看法和建议。 戳链接&#xff1a;如何通过自学成长为一名后端开…

GCC/G++ Centos离线安装

方式一&#xff08;推荐&#xff09; 官方地址&#xff1a;https://gcc.gnu.org/releases.html 镜像站点1&#xff1a;http://mirrors.aliyun.com/centos/7/os/x86_64/Packages/ 镜像站点2&#xff1a;https://vault.centos.org/7.5.1804/os/x86_64/Packages/ gcc &#xff1a…

工业—使用Flink处理Kafka中的数据_ChangeRecord2

使用 Flink 消费 Kafka 中 ChangeRecord 主题的数据,每隔 1 分钟输出最近 3 分钟的预警次数最多的 设备,将结果存入Redis 中, key 值为

【GoLang】文件操作中perm参数的用法

我们在创建文件时&#xff0c; perm 参数主要用于设置新创建文件的权限&#xff0c;有时是0755&#xff0c;有时是0644。那你知道这些数字都代表什么意思吗&#xff1f; 让我们一个个数字拆开了说&#xff0c;现在从左到右给每个数字一个编号 编号1&#xff1a;通常是0&…

【Selenium】基于 WebDriverWait 爬取带有懒加载的静态页面

0x00 前言 朋友做标书&#xff0c;需要用到每日温度&#xff0c;他的老板让在这个网页手动复制做一个长期表出来&#xff1a;http://www.tianqihoubao.com/lishi/nanjing/month/202412.html 想着帮个忙&#xff0c;做个爬虫脚本吧&#xff0c;忽然发现这个页面很有意思&#xf…

fpga vga

因为 如果是减1的话是会少减1的 因为piel_x会延迟 timescale 1ns / 1psmodule vga(//系统侧input wire clk_sys ,input wire rst_n ,input wire clk ,//在顶层例化的pll产生的input wire locked ,/…

RNACOS:用Rust实现的Nacos服务

RNACOS是一个使用Rust语言开发的Nacos服务实现&#xff0c;它继承了Nacos的所有核心功能&#xff0c;并在此基础上进行了优化和改进。作为一个轻量级、快速、稳定且高性能的服务&#xff0c;RNACOS不仅包含了注册中心、配置中心和Web管理控制台的功能&#xff0c;还支持单机和集…

如何做好一份技术文档?-中小企实战运营和营销工作室博客

做好一份技术文档需要考虑文档的目的、受众、内容结构、表达清晰度等多个方面&#xff0c;以下是详细步骤&#xff1a; 一、明确文档目的和受众 确定目的 技术文档的目的可能多种多样&#xff0c;例如记录软件系统的功能和操作流程&#xff0c;便于用户使用&#xff1b;或是作为…

【Java语言】内部类

可以将一个类的定义在另一个类或者一个方法内部&#xff08;一般都是定义在类里面&#xff09;&#xff0c;在内部的类就称为内部类&#xff0c;在内部类的外部的类称为外部类。内部类可以在数据结构实现链表的结点等还有很多的地方使用它。然而内部类又分四种&#xff1a;静态…

DemoFusion 技术浅析(三):渐进式上采样

渐进式上采样模块&#xff08;Progressive Upsampling Module&#xff09; 是 DemoFusion 框架的核心组件之一&#xff0c;其主要目标是逐步提高图像分辨率&#xff0c;同时保留和增强图像细节。为了实现这一目标&#xff0c;该模块结合了多种上采样技术、扩散模型以及精细化的…