AI 驱动的数据中心变革与前景

图片

文章主要探讨了AI计算时代数据中心的转型,涉及计算技术的多样性、规格尺寸和加速器的发展、大型语言模型(LLM)的发展、功耗和冷却趋势、基准测试的重要性以及数据中心的发展等方面。为大家提供深入了解AI基础设施发展的视角。

 计算技术的多样性与应用场景

1. CPU:作为数据中心的传统“主力军”,在推理任务中表现出色,特别是配备充足内存的CPU在处理繁重图像处理任务时具有优势,但在快速计算能力方面不及GPU。

2. GPU:最初设计用于图形处理,随着张量核心的引入,在各种AI应用中广泛使用。

3. FPGA:以流水线指令闻名,适合诸如语音转文本转换等任务。

4. DSA:专注于高效执行矩阵乘法,针对特定工作负载进行高度优化,但难以轻易应用于其他IT任务。

由此可见:

  • 在处理能力和可编程性方面,CPU具有显著灵活性;
  • GPU通过CUDA技术发展提供高性能和可编程性;
  • FPGA高度定制化;
  • DSA针对特定工作负载优化,需要软件调整以实现最佳性能。


 规格尺寸和加速器 

  • 多种规格尺寸的发展:

从M.2和PCI CEM到定制芯片设计,包括Cerebras开创的大型单片晶圆级解决方案,以及Nvidia的Grace Hopper这样的高速缓存一致性CPU/GPU正在崛起,每种设计都针对特定工作负载进行优化。

  • 推理和训练的应用趋势:

在推理任务中,主要看到M.2嵌入式规格尺寸和PCI CEM的广泛应用;在训练方面,逐渐转向使用越来越定制化的GPU。

 大型语言模型(LLM) 

  • 模型规模与算力需求:

随着LLM模型规模的扩大,对算力的需求显著增加,计算需求呈现出大约10倍的增长轨迹,训练作业的最大关键绩效指标取决于训练时间,因此引入不同类型的加速器成为关键。

  • 数据集的组合:

随着视觉元素的加入,文本、视觉和视频等不同数据集的组合在LLM中变得普遍。

 功耗和冷却 

  • 功耗增长趋势:

当前最高功率的GPU大约为700瓦,PCI CEM约为400瓦,未来几代的功耗预计将显著增长,这将对冷却设施产生重大影响。

  • 冷却设施的发展:

冷却基础设施变得至关重要,液体冷却与空气冷却的结合成为主要趋势,液体冷却不会完全取代空气冷却平台,许多数据中心仍然偏好并部署空气冷却基础设施。

 基准测试的重要性

  • MLCommons的发展:

MLCommons起源于基于MLPerf的基准测试,并演进扩展了其范围,涵盖存储、高性能计算以及跨这些领域的多样化基准测试开发。

  • 基准测试与模型的关系:

基准测试往往滞后于LLM快速增长的行业步伐,但像MLCommons和MLPF这样的基准测试覆盖了训练、推理和存储等多个方面,为评估特定加速器提供了一个框架,有助于从芯片的角度评估其性能以及与期望的关键绩效指标(KPI)的对齐情况。

  • 推理和训练领域的基准测试:

在推理方面,关注从数据中心延伸到边缘环境,通过评估不同的模型类别来确定最佳的持续时间和KPI;在训练领域,为模型和基准测试实践在训练和推理领域的一致分类提供了支持。

 数据中心的发展

  • 机架功率趋势:

随着LLM的增长,数据中心的机架功率从历史上的每机架10至20千瓦线性增长至每机架75至100千瓦甚至更高,这可能导致新的绿色数据中心的增加,改造现有的旧数据中心以满足这些需求将是一项挑战。

  • 数据中心层面的视角转变:

从节点级别开始,各种功率、基准测试、规格尺寸和精度的加速器正在涌现,使得数据中心需要从节点级别上升到机架级别,再到数据中心级别进行考虑,冷却变得具有挑战性,液体冷却迅速得到采用,未来液体冷却可能在AI计算场景中占据主导地位。

 AI基础设施的发展 

  • 从节点级别到集群级别的部署:

AI基础设施的发展趋势已不再局限于部署仅配备2到8个GPU的节点来完成任务,将更多地转向集群级别的部署。

  • 2.关键因素:

-网络设计和连接方式:为了使GPU、FPGA或专用加速器等计算单元高效运行,必须认真考虑网络设计,包括如何连接存储、数据的位置以及如何迅速地将数据传输到计算单元中并解决问题。

-机架和数据中心级别的电力预算:到2025年,应该考虑或部署每个机架功率在70到100千瓦的数据中心,需要从机架级别和数据中心级别的电力预算出发,深入思考未来几年内这一特定领域的所有增长趋势。

-与数据中心人员的沟通:所有生成式AI应用程序的部署规模已远超过之前的预测,需要与数据中心人员进行深入的沟通,了解他们的需求,并基于这些需求进行构建,而不是简单地将GPU组装成一个节点。

 行业应用

  • 科技巨头的数据中心转型:

以谷歌、亚马逊、微软等科技利用AI技术优化数据中心的运营和管理,提高能效和计算效率。

  • 金融行业的数据中心应用:

金融机构借助AI驱动的数据中心进行风险评估、欺诈检测和交易处理等业务,以及面临的挑战和解决方案。

  • 医疗行业的数据中心创新:

医疗领域数据中心应用于医学影像分析、疾病预测和个性化医疗等,以及利用AI技术推动医疗行业的发展。

 技术创新

  • 量子计算在数据中心的潜力:

量子计算与传统计算技术相结合,为数据中心带来更高的计算能力和解决复杂问题的能力。

  • 边缘计算与数据中心的协同发展:

边缘计算在数据中心架构中起着重要的作用,边缘计算与数据中心协同工作以提高数据处理的实时性和效率。

  • AI芯片的发展:

当前人工智能芯片市场的竞争强烈,未来芯片技术会向更高的算力、更低的能耗和更好的兼容性而发展。

 展望未来

  • AI 与数据中心的深度融合:

随着AI技术的不断发展,数据中心将更加智能化,能够自动优化资源配置、预测故障并进行自我修复,提高运营效率和可靠性。

  • 新型计算架构的出现:

未来可能会出现一些新型的计算架构,如类脑计算等,这些架构将为数据中心带来更高的性能和更低的能耗。

  • 数据中心的绿色可持续发展:

在全球对环境保护日益重视的背景下,数据中心将朝着绿色可持续的方向发展,采用更多的可再生能源、优化冷却技术以提高能源利用率。

  • 边缘数据中心的崛起:

随着物联网、5G等技术的普及,边缘数据中心将发挥越来越重要的作用,能够更快地处理和分析数据,减少延迟,满足实时性要求较高的应用场景。

  • 数据中心的全球化布局:

为了满足不同地区用户的需求,数据中心将进一步全球化布局,同时也需要应对不同地区的政策、法规和文化差异。

数据中心的未来发展充满着机遇与挑战。技术的不断创新、计算需求的持续增长、对能源效率和可持续性的重视,以及政策法规的影响等因素,都将塑造数据中心的未来格局。

#数据中心#绿色节能#AI#人工智能#高性能计算#HPC#液冷#水冷#AI基础设施#LLM#大语言模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/368239.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA 一键部署Docker

以部署示例服务(sevnce-demo)为例。 配置服务器 地址、账号、密码根据实际情况填写 配置镜像仓库 地址、账号、密码根据实际情况填写 编写Dockerfile 在sevnce-demo根目录下右键,选择创建Dockerfile。 # 基础镜像 FROM sevnce-registry.c…

使用Vue CLI方式创建Vue3.0应用程序

Vue CLI 是一个基于 Vue.js 进行快速开发的完整系统。新版本的 Vue CLI 的包名由原来的 vue-cli 改成了 vue/cli。 在开发大型项目时,需要考虑项目的组织结构、项目构建和部署等问题。如果手动完成这些配置工作,工作效率会非常低。为此,Vue.…

【博士每天一篇文献-综述】A survey on few-shot class-incremental learning

阅读时间:2023-12-19 1 介绍 年份:2024 作者:田松松,中国科学院半导体研究所;李璐思,老道明大学助理教授;李伟军,中国科学院半导体研究所AnnLab; 期刊: Neu…

新型发电系统——光伏行业推动能源转型

一、发展背景 “十四五”期间,随着“双碳”目标提出及逐步落实,本就呈现出较好发展势头的分布式光伏发展有望大幅提速。就“十四五”光伏发展规划,国家发改委能源研究所可再生能源发展中心副主任陶冶表示,“双碳”目标意味着国家…

【linux】网络基础(3)——tcp协议

文章目录 TCP协议概括TCP头部格式TCP连接管理建立连接(三次握手)数据传输确认应答机制捎带应答 滑动窗口丢包问题 拥塞控制延时应达 终止连接(四次挥手) TCP协议概括 TCP是一个面向连接的协议,在传输数据之前需要建立连…

04.C1W3.Vector Space Models

目录 Vector Space ModelsWord by Word and Word by DocWord by Document DesignWord by Document DesignVector Space Euclidean DistanceEuclidean distance for n-dimensional vectors Euclidean distance in PythonCosine Similarity: IntuitionCosine SimilarityPrevious …

2024鲲鹏昇腾创新大赛集训营Ascend C算子学习笔记

异构计算架构(CANN) 对标英伟达的CUDA CuDNN的核心软件层,向上支持多种AI框架,向下服务AI处理器,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。主要包括有各种引擎、编译器、执行器、算…

Tomcat的安装和虚拟主机和context配置

一、 安装Tomcat 注意:安装 tomcat 前必须先部署JDK 1. 安装JDK 方法1:Oracle JDK 的二进制文件安装 [rootnode5 ~]# mkdir /data [rootnode5 ~]# cd /data/ [rootnode5 data]# rz[rootnode5 data]# ls jdk-8u291-linux-x64.tar.gz [rootnode5 data]…

七、函数练习

目录 1. 写一个函数可以判断一个数是不是素数。(素数只能被1或其本身整除的数) 2. 一个函数判断一年是不是闰年。 3.写一个函数,实现一个整形有序数组的二分查找。 4. 写一个函数,每调用一次这个函数,使得num每次增…

Python 面试【★★★★】

欢迎莅临我的博客 💝💝💝,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

营销故事之扩大牙膏开口

职场营销故事“扩大牙膏开口”又可以说是“牙膏开口扩大1毫米”,为十大经典营销故事之一。某品牌的牙膏,包装精美,品质优良,备受顾客喜爱,连续10年营业额保持10%-20%的增幅。可到了第11年,销售业绩却停滞不…

实时数仓Hologres OLAP场景核心能力介绍

作者:赵红梅 Hologres PD OLAP典型应用场景与痛点 首先介绍典型的OLAP场景以及在这些场景上的核心痛点,OLAP典型应用场景很多,总结有四类:第一类是BI报表分析类,例如BI报表,实时大屏,数据中台等…

AntV学习笔记

文章目录 G6 图可视化引擎简单上手复杂一点的案例 S2 多维交叉分析表格简单的一个vue3使用S2的例子 G6 图可视化引擎 G6 是一个简单、易用、完备的图可视化引擎,它在高定制能力的基础上,提供了一系列设计优雅、便于使用的图可视化解决方案。能帮助开发者…

Linux高并发服务器开发(十)反应堆模型和线程池模型

文章目录 1 epoll反应堆2 线程池流程代码 3 复杂版本线程池代码 1 epoll反应堆 文件描述符 监听事件 回调函数 进行封装 创建socket设置端口复用绑定监听创建epoll树将监听文件描述符lfd上epoll树,对应的事件节点包括:文件描述符,事件epoll…

如何在Docker容器中,修改MySQL密码

如果MySQL运行在Docker容器中,修改MySQL密码的方法稍有不同。以下是如何在Docker中修改MySQL密码的步骤: 方法1:使用MySQL命令行工具 1. 找到MySQL容器的ID或者名字: docker ps 2. 进入MySQL容器: docker exec -i…

2024年小米SU7维修手册和电路图线路图接线图资料更新

此次更新了2024年小米SU7维修手册和电路图资料,覆盖市面上99%车型,包括维修手册、电路图、新车特征、车身钣金维修数据、全车拆装、扭力、发动机大修、发动机正时、保养、电路图、针脚定义、模块传感器、保险丝盒图解对照表位置等等! 汽修帮…

QT加载安装外围依赖库的翻译文件后翻译失败的现象分析:依赖库以饿汉式的形式暴露单例接口导致该现象的产生

1、前提说明 VS2019 QtClassLibaryDll是动态库,QtWidgetsApplication4是应用程序。 首先明确:动态库以饿汉式的形式进行单例接口暴露; 然后,应用程序加载动态库的翻译文件并进行全局安装; // ...QTranslator* trans = new QTranslator();//qDebug() << trans->…

无人机云台类型及作用

无人机云台主要分为三种类型&#xff1a; 单轴云台&#xff1a;仅支持单向旋转&#xff0c;适合拍摄平滑的延时摄影和全景照片。 双轴云台&#xff1a;支持水平和垂直旋转&#xff0c;可用于拍摄流畅的视频和运动物体。 三轴云台&#xff1a;全面支持所有旋转轴&#xff0c;…

CASS中按指定距离和方向移动图形

1、绘制一个图形 打开软件&#xff0c;随意绘制一个矩形&#xff0c;并量取左下角点的坐标值&#xff0c;具体如下&#xff1a; 2、按距离移动原理讲解 例1&#xff1a;将图形沿着y轴负方向移动100米&#xff0c;如何实现&#xff1f; 如上图所示&#xff0c;测绘中的坐标系…

办公软件WPS与Office的区别

临近计算机考试很多同学在纠结我是报wps好&#xff1f;还是ms office好&#xff1f;下面就来详细说说。 1、wps属于国内金山公司的办公软件&#xff0c;里面包含word、Excel和PPT。考试是2021年开始的&#xff01; 2、MS&#xff08;Microsoft 微软&#xff09; office属于美…