大模型引发“暴力计算”,巨头加速推进液冷“降温”

点击关注

文|姚悦

编|王一粟

一进入部署了液冷服务器的数据中心,不仅没有嘈杂的风扇声,甚至在不开空调的夏日也完全没有闷热感。

在大模型引发“暴力计算”的热潮下,数据中心的上下游,正在加紧推进液冷“降温”。

半年来,服务器厂商在液冷产品上纷纷推出新的解决方案。比如,中兴通讯的新G5系列服务器,支持不同的冷板式液冷方案,从CPU液冷到内存条散热+VR液冷;联想升级海神温水水冷系统,可实现服务器全水冷无风扇设计;新华三也发布全栈液冷解决方案,包含G6系列服务器、核心路由器、接入交换机;中科曙光子公司曙光数创8月发布了“冷平衡”战略,是特别针对数据中心算力、成本、能耗三元平衡问题,推出的全栈液冷数据中心技术与全生命周期一站式服务;去年年底华为推出全场景液冷“天成”多样性算力平台。今年,华为昇腾再推集成天成液冷的算力集群,可以支持万卡规模。

“在‘东数西算’‘双碳’大背景下,不断提升的功率密度和PUE(能效指标,越接近1越优)设计要求已成为行业面临的主要问题,液冷技术具有高密低碳等优势,已经成为应对数据中心散热压力和节能挑战的必由之路。”中兴通讯数据中心产品线规划总工翁建刚表示。

而就在去年,面对液冷,当上游设备厂商活跃时,中游的数据中心还顾虑重重,保持观望。但现在,像企商在线这样的中游企业也已经积极规划液冷设施,足见液冷已经成为行业共识。

企商在线IDC能力中心售前经理徐涛对光锥智能表示,公司已经在接管客户的一些AI业务,AI服务器的功耗是通用服务器功耗的十倍左右,风冷的局限性日渐明显,必须尝试液冷。

服务器厂商的积极布局,很大程度上来源于客户的需求逐渐明朗。

数据中心占有半壁江山的三大电信运营商在6月亲自下场,联合发布《白皮书》,提出“三年景愿”:即2023年开展液冷技术验证;2024年开展规模测试,新建数据中心项目10%规模试点应用液冷技术,推进产业生态成熟;2025年及以后开展规模应用,50%以上数据中心项目应用液冷技术。

“现在液冷基本上所有内容已经通过验证,进入一个规模扩张的阶段。”近期,工信部直属研究机构赛迪顾问的液冷领域分析师袁钰明确当前液冷所处阶段。

其实,液冷并不是新技术,其早已被应用于工业、航空领域。一说,阿波罗登月计划,就将液冷用于宇航员体温控制。在数据中心领域,液冷在上世纪60-90年代就崭露头角。但后来随着计算技术迭代功耗下跌,又被“冷落”。

从被“冷落”到“翻红”,液冷经历了什么,又将面对什么新挑战?

01 “暴力计算”亟需液冷降温

风冷是过去很长时间内,数据中心的主流温控方案,以空气为冷却媒介。液冷和风冷最大的区别,就是冷却媒介不同,“液冷”利用矿物油、氟化液等绝缘低沸点的冷却液作为冷媒,通过热交换将服务器的热量排出。完全绝缘、无腐蚀性的冷液,单位体积价格堪比茅台、五粮液。

液冷之所以被数据中心重新重视,根本原因是,后摩尔定律时代,芯片、服务器的功耗再呈上升趋势,随之产生更高的温度。

“那一次更让我深刻理解了温度对于服务器的影响。”有着十余年IDC售前经验的徐涛回忆从业过程中遇到的设备散热对服务器运行影响的问题,“客户规划的服务器功耗100多瓦,实际装的300多瓦,而且单机柜实际密度也比规划高,结果测出服务器温度到了六七十度,直接导致故障率是原来的10倍。”

图源曙光数创招股书

针对数据中心高温问题,头部设备厂商更加大力推进液冷,目的大多集中在降低PUE,具体则从技术、方案等不同角度着力。

据媒体此前报道,中兴通讯建设的全液冷数据中心项目中,液冷散热的比例已经达到了70%。公司今年1月发布的G5系列服务器新品支持液冷散热技术,采用冷板式液冷散热,可实现数据中心PUE降至1.1,冷板&管路高可靠连接,全管路智能监控,漏液秒级告警。

联想则从液体温度着眼,首创海神温水全水冷技术。不同于常见的45-50摄氏度的技术,联想通过数据分析,认为进水50摄氏度、出水60摄氏度,可以获得最佳能耗比。海神温水全水冷技术实现了服务器全水冷无风扇设计,支持多类型GPU,散热效率达98%,甚至可以支持数据中心PUE降至1.1以下。

后摩尔定律时代,芯片的功率越来越高。尤其是大模型带来的“暴力计算”,例如,用于训练ChatGPT的英伟达 A100服务器的最大功耗已达6.5kW。而此前,传统的服务器功率400W左右已经算很高。

与此同时,AI产业快速发展,致使算力需求飙升。但受制于建设面积等客观因素,增加单机柜功率密度,成为调和快速的算力需求与有限数据中心承载力的共识方案。

服务器功耗越来越大,温度越来越高,所占空间越来越小。可以想象一下,一堆爱出汗的人,挤在狭小的屋子。

越来越高的温度对于服务器来说是非常大的隐患。

“芯片温度每升高10度,故障率就会翻倍,寿命也会减半。”徐涛说,所以散热已经是当前智算面临的最大问题之一。

但是,风冷已经被逼近甚至突破极限。每机柜15-25kW的功率密度是“未使用背板换热器等其他制冷设备”的风冷解决方案上限,仅勉强扛得住2-4个NVIDIA A100。

华为集群计算业务副总裁王振华表示,当芯片的典型功耗超过300W,每平方厘米的功耗超过90W的时候,风冷难以为继。而当前业界的主流芯片产品,功耗已经超过这个阈值。

“机柜密度不断提升,会带来整个制冷系统的造价成本提升。”曙光数创总裁何继盛表示,“甚至单机柜的功率密度达到一定程度,继续增加投资都不能满足数据中心的散热需求。”

另一方面,随着“碳达峰”、“碳中和”等战略落地,国家到地方对于PUE明确的“红线”,成为刺激液冷产业加速更为直接的原因。

4月,多部门发文,2023年6月起数据中心PUE不高于1.4,2025年起数据中心不高于1.3,当前行业平均PUE为1.5。更多的地方政策,则对数据中心提出了更加严格的要求。

相比之下,液冷的单位体积的比热容足有风冷的1000倍以上。(比热容越大的物质,温度每上升1摄氏度,所吸收的热量越多);液冷PUE普遍在1.1,甚至不断逼近1.0。

新华三已经设计了PUE<1.1更节能的数据中心,并获得了金融业数据中心UptimeT4认证。2022年5月,新华三推出UniServer R4900LC G5液冷服务器,支持NVIDIA A100 80GB PCIe液冷式GPU,相比于传统风冷机型,整机功耗可降低21.3%,全年PUE均值为1.042。

新华三集团液冷服务器产品经理何伟宇认为,随着产品的快速迭代,单机柜功率密度的持续演进,对于数据中心的散热系统提出了更高的要求,像北上广深等一线城市对于空间和散热的需求则更为严苛,普通风冷机房的制冷效率已经大大制约了新技术和高算力的演进,这在一定程度上也推动了液冷技术在数据中心的发展和普及。

液冷作为更有效解决数据中心高密度散热的新兴技术,已经成为了行业的共识和确定趋势。

“去年被业内称作是数据中心液冷元年,今年已经有越来越多的客户开始接受液冷方案,液冷在整个市场渗透率有望做到20%-30%。”宁畅总裁秦晓宁曾表示。

行业格局来看,海外液冷厂商具有先发优势,中国厂商后来居上实现突围。2015-2018年,中科曙光、华为、联想、阿里巴巴等一众国产厂商,先后实现了液冷服务器大规模商业应用项目的落地,实现弯道超车。

据《中国液冷数据中心发展白皮书》在2020年对于中国液冷数据中心厂商竞争力的研究,基于产品营收、市占率、客户反馈等指标,中科曙光为市场的绝对领导者,华为、阿里巴巴、联想紧随其后。

02 液冷的“成本账”

“三年前接到调研任务时,液冷还是'黑科技',但现在已经进入了应用拓展阶段。”袁钰近期表示。

液冷“杀回”数据中心,进入拓展期,重要原因之一就是能算得来成本账。

液冷技术按照液体与发热器件的接触方式,可分为“间接接触型”和“直接接触型”两大类。冷板式液冷是最典型的间接接触型液冷技术;直接接触型主要有浸没式液冷和喷淋式液冷两种技术,浸没式液冷最为典型。通俗讲,对应就像人降温措施,冷敷、冷水淋浴或直接泡冷水澡一样。

浸没式和喷淋式液冷技术冷却效果更好,但由于冷板式的服务器芯片等发热器件不用直接接触液体,所以冷板式液冷对现有服务器芯片组件及附属部件改动量较小,可操作性更强、目前成熟度最高、应用最广泛,最重要的是成本更低。

翁建刚表示,测算来看,功率密度到达一定程度,液冷方案相比风冷已具备经济优势,3年左右能够实现投资收益平衡。不仅如此,随着液冷市场规模的扩大,相关基础设施成本也将进一步降低。

曙光数创副总裁张鹏近期也表示,服务器把散热器去掉,换上冷板,可能成本会有一些上升,但不需要冷机、空调,以及工程上的一些东西,初投资的时候已经省钱。

据招商研报,数据中心TCO(总成本),在不计算服务器折旧与服务器运营成本的情况下,当单机柜功率>15kW时,冷板式液冷TCO优势明显,当单机柜功率>30kW时,浸没式液冷开始出现优势。

此外,无论任何一种液冷路线,相较风冷,都已经在节省电和空间上具备成本优势。

根据开源证券研究所的统计结果,一个数据中心的能耗分布中,散热系统的占比高达40%。也就是说,数据中心每耗费一度电,只有一半用在了“计算”上,其他的则浪费在了散热、照明等方面。计算和散热几乎陷入了一场零和博弈,计算量越大散热消耗的电量越大。

华为昇腾AI计算集群也已经采用液冷散热。液冷方案本就比传统风冷方案更省电,昇腾采用了直接把冷夜注入每块芯片的精准供给方式,相比浸没式,可以降低日常运维的成本。

“精准供给取决于芯片板卡上都设置传感器、电控阀门,再加上中央控制,可以实现为不同芯片在不同的负荷下,提供精细化冷量输送。”北京昇腾人工智能生态创新中心CTO杨光向光锥智能介绍。

华为昇腾门头沟数据中心,拍摄:光锥智能

阿里云技术专家王鹏曾表示,如果全国的数据中心都采用浸没液冷技术,预计到2025年,一年可节省上千亿度电。

液冷散热效果强大,数据中心不用采用疏密手段。尤其是对于一二线的数据中心来说,液冷的空间成本更突出。

徐涛透露,他们有数据中心,因为接了一些AI业务,原来规划246个机柜,但现在GPU服务器增多,为了避免数据中心温度过高,只能进行疏密,所以一下就砍到了六七十个机柜。但石景山区的数据中心上了液冷设备空间利用率就会大幅提升,同时可以降低数据中心的PUE,降低能耗水平。

“二三线城市的建筑成本为数千元,北京的建筑成本为数万元,空间成本可以说非常高。”徐涛表示,虽然目前液冷单千瓦成本较风冷高,但考虑到空间利用率以及节省的电费,液冷制冷方案,还是值得投入的。

03 规模扩张还需跨越“百标大战”

虽然已经初步跨过降本这道栏,接下来液冷扩张却还要面临新的问题——“百标大战”。

以冷板式液冷为例,主要包括机柜与服务器,交付方式分为两种,一体化交付与解耦交付。解耦交付是液冷机柜与液冷服务器之间遵循用户统一制定的接口设计规范,机柜与服务器解耦,可由不同厂商交付;一体化交付是液冷整机柜(包括机柜和服务器)由厂商自定标准进行集成设计开发,整机柜由同一厂商一体化交付。

液冷产业链尚不成熟,当前业内尚无服务器统一接口标准,各厂商产品及配件设计标准各异。两种交付背后充满了各方博弈。

对于厂商来说,一体化解决方案的成本一定是更低,开发和交付周期大幅缩短。更重要的是,为了形成客户壁垒,厂商也多选择以产品一体化的交付模式为主。这导致各厂商的产品之间兼容性差。

不过,数据中心用户会对一体化交付充满顾虑。

一方面,用户会有迁移需求,比如达成新战略合作,或者原本就是临时租用机柜,以及后续机柜需要扩容等。如果液冷的设施绑定,迁移成本会增加。另一方面,设备与设施绑定,可能会让用户失去议价权。一次性批量采购,设备更新速度快,大概率只能保持固定供应商,如果选择其他产品,还需要对基础设施进行改造。

因此,考虑到用户需求,数据中心不愿意接受一体化方案,就会要求设备厂商解耦。毕竟设备厂商目前还处于充分竞争阶段,厂商也就不得不解耦交付。

当前超聚变、华为、浪潮、曙光、新华三等主要液冷服务器厂商皆拥有自己的一体化交付方案与解耦交付方案。

不过,解耦是能解,解耦也可带来供应商多样化,有助于控制成本,能够让各供应商发挥自身优势。但是解耦要求甲方协调各个供应商做好对接,过程就会非常耗时耗力。“每一个环节都得多方密切沟通,也得紧盯落实,一旦出现一点差错,就导致系统性问题。”徐涛说,相对于一体化交付,没有行业标准,解耦就会变成项目制。

各方拉锯中,首当其冲的就会是设备厂商。

曙光数创是国内最早布局液冷的企业,液冷基础设施市占率接近6成。但曙光数创今年年中报显示,冷板液冷数据中心基础设施产品,营收收入同比减少42.55%,营收成本同比减少33.63%,毛利率同比减少11.14%。年报中解释,收入波动的原因是,公司产品是非标准产品,但目前数据中心建设标准各异。

继而,下游会因为种种问题,犹豫尝试液冷方案,导致液冷推广遇阻。

曙光数创也呼吁行业统一标准。张鹏表示,首先如果行业标准对于供水的温度、温差、压力等能够统一,对液冷成本进一步下降是非常有意义的,也是他们在实际落地中遇到的问题。

不过,行业的标准形成并不会一蹴而就。而徐涛认为,各方博弈的滚动过程,行业的发展难免会有波折很有可能“进三步退一步”。当然,这也是新兴技术必然经历的过程。

华为昇腾已经宣布将会发布业界首个万卡级的集群,也将配套液冷方案,使用天成平台采用的“液冷+电源+网络”三条总线的设计思路。

企商在线石景山公共算力中心预计明年8月就交付,虽然还没有行业标准落实,企商在线则选择部分高功耗算力采用液冷方式一体化建设,然后直接租算力给客户。

徐涛表示,后续随着行业发展一定会有新的方案,考虑到芯片功耗越来越高,风冷能力有限,同时“碳达峰”“碳中和”的要求,液冷作为确定趋势,当前先做起来比较重要。

欢迎关注光锥智能,获取更多科技前沿知识!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/159758.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Apipost一键压测已支持导入CSV文件

最近更新中Apipost对UI页面进行了一些调整&#xff0c;另外一键压测功能支持参数化&#xff01;本篇文章将详细介绍这些改动&#xff01; API调试页面的细节改动 在请求区填入请求参数或脚本时会有相应的标识 如在Query中填入多个参数时上方会展示数量 在预、后执行脚本中写…

Seata入门系列【7】Seata之TCC模式入门案例

1 前言 Seata 将为用户提供了 AT、TCC、SAGA 和 XA 事务模式&#xff0c;为用户打造一站式的分布式解决方案。 TCC 与 Seata AT 事务一样都是两阶段事务&#xff0c;它与 AT 事务的主要区别为&#xff1a; TCC 对业务代码侵入严重&#xff1a;每个阶段的数据操作都要自己进行…

最好的开放式蓝牙耳机有哪些?排名前五的开放式耳机五强

越来越多的人开始选择蓝牙耳机作为他们的音频解决方案。蓝牙耳机市场提供了各式各样的选择&#xff0c;不仅有常见的头戴式、耳塞式和半入耳式&#xff0c;还有一种备受欢迎的"开放式耳机"。今天&#xff0c;我将向大家介绍一些优秀的开放式蓝牙耳机款式&#xff0c;…

网站如何有效防止网络攻击

互联网上的网站和应用程序受到各种威胁&#xff0c;如黑客、恶意软件和数据泄漏。因此&#xff0c;了解如何解决网站被攻击的问题至关重要。本文将介绍一些简单的步骤&#xff0c;帮助您提高您的网站的安全性。 确认攻击 要解决网站被攻击的问题&#xff0c;首先需要识别是否遭…

将中文名格式化输出为英文名

要求&#xff1a; 编写Java程序&#xff0c;输入样式为&#xff1a;Zhong wen ming的人名&#xff0c;以 Ming,Zhong.W 的形式打印出来。其中.W是中间单词的首字母&#xff1b;例如输入”Willian Jefferson Clinton“,输出形式为&#xff1a;Clinton,Willian.J public static …

FPGA project : flash_write

本实验重点学习了&#xff1a; flash的页编程指令pp。 在写之前要先进行擦除&#xff08;全擦除和页擦除&#xff09;&#xff1b; 本实验&#xff1a;先传写指令&#xff0c;然后进入写锁存周期&#xff0c;然后传页编程指令&#xff0c;3个地址&#xff1b; 然后传数据&a…

攻防千层饼

近年来&#xff0c;网络安全领域正在经历一场不断升级的攻防对抗&#xff0c;这场攻防已经不再局限于传统的攻击与防御模式&#xff0c;攻击者和防守者都已经越发熟练&#xff0c;对于传统攻防手法了如指掌。 在这个背景下&#xff0c;攻击者必须不断寻求创新的途径&#xff0…

Hadoop问题:start-all.sh显示未找到命令

在sbin文件夹下是start-all.sh可以运行的&#xff0c;但是到了别的文件夹下就不行了&#xff0c;于是想到了是文件路径问题&#xff0c;因为hadoop环境是和java环境一起配置的导致sbin写成了bin 解决办法&#xff1a; 打开.bashrc配置hadoop的环境变量 sudo vim ~/.bashrc …

Photoshop Lightroom 2024 (Lr2024)最新安装特别版

Adobe Photoshop Lightroom 2024是一款由Adobe Systems公司发布的软件&#xff0c;其英文直译为“明室”&#xff0c;也常被称为数码暗房。它主要用于图片管理和后期润色&#xff0c;包括图片导入、整理、编辑、导出等全过程&#xff0c;不仅可以对图片进行编辑&#xff0c;还可…

Qt不能安装自己想要的版本,如Qt 5.15.2

使用在线安装工具安装Qt5.15.2时&#xff0c;发现没有Qt 5的相关版本&#xff0c;只有Qt 6的版本&#xff0c;这时选择右边的Archive&#xff0c;再点击筛选&#xff0c;这时就会出现之前的Qt版本。

web 性能优化详解(Lighthouse工具、优化方式、强缓存和协商缓存、代码优化、算法优化)

1.性能优化包含的方面 优化性能概念宽泛&#xff0c;可以从信号、系统、计算机原理、操作系统、网络通信、DNS解析、负载均衡、页面渲染。只要结合一个实际例子讲述清楚即可。 2.什么是性能&#xff1f; Web 性能是客观的衡量标准&#xff0c;是用户对加载时间和运行时的直观…

创建React Native的第一个hello world工程

创建React Native的第一个hello world工程 需要安装好node、npm环境 如果之前没有安装过react-native-cli脚手架的&#xff0c;可以按照下述步骤直接安装。如果已经安装过的&#xff0c;但是在使用这个脚手架初始化工程的时候遇到下述报错的话 cli.init(root, projectname);…

机器学习 Q-Learning

对马尔可夫奖励的理解 看的这个教程 公式&#xff1a;V(s) R(s) γ * V(s’) V(s) 代表当前状态 s 的价值。 R(s) 代表从状态 s 到下一个状态 s’ 执行某个动作后所获得的即时奖励。 γ 是折扣因子&#xff0c;它表示未来奖励的重要性&#xff0c;通常取值在 0 到 1 之间。…

【音视频|ALSA】SS528开发板编译Linux内核ALSA驱动、移植alsa-lib、采集与播放usb耳机声音

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; &#x1f923;本文内容&#x1f923;&a…

SVN报错fail to run the WC Db work queue associated with,清理失败,乱码的解决方式

替换掉 wc.db 文件即可 SVN报错fail to run the WC Db work queue associated with&#xff0c;清理失败&#xff0c;乱码的解决方式_svn failed to run the wc db-CSDN博客

华为云云耀云服务器L实例评测|企业项目最佳实践之评测用例(五)

华为云云耀云服务器L实例评测&#xff5c;企业项目最佳实践系列&#xff1a; 华为云云耀云服务器L实例评测&#xff5c;企业项目最佳实践之云服务器介绍(一) 华为云云耀云服务器L实例评测&#xff5c;企业项目最佳实践之华为云介绍(二) 华为云云耀云服务器L实例评测&#xff5…

数据在内存中的存储(2)

文章目录 3. 浮点型在内存中的存储3.1 一个例子3.2 浮点数存储规则 3. 浮点型在内存中的存储 常见的浮点数&#xff1a; 3.14159 1E10 ------ 1.0 * 10^10 浮点数家族包括&#xff1a; float、double、long double 类型 浮点数表示的范围&#xff1a;float.h中定义 3.1 一个例…

基于yolov2深度学习网络的猫脸检测识别matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 load yolov2.mat% 加载训练好的目标检测器 img_size [224,224]; imgPath test/; % 图…

【Rust基础①】基本类型、所有权与借用、复合类型

文章目录 1 基本类型1.1 数值类型1.1.1 Rust 中的内置的整数类型&#xff1a;1.1.2 浮点类型1.1.3 数学运算1.1.4 位运算1.1.5 序列(Range) 1.2 字符、布尔、单元类型1.3 语句和表达式1.4 函数 2 所有权与借用2.1 栈(Stack)与堆(Heap)2.2 所有权原则2.2.1 转移所有权2.2.2 克隆…

UI自动化的适用场景,怎么做?

经常有人会问&#xff0c;什么样的项目才适合进行UI自动化测试呢&#xff1f;UI自动化测试相当于模拟手工测试&#xff0c;通过程序去操作页面上的控件。而在实际测试过程中&#xff0c;经常会遇到无法找到控件&#xff0c;或者因控件定义变更而带来的维护成本等问题。 哪些场…