在国家十四五规划大力发展数字经济的背景下,数据中心作为算力的核心载体,其基础设施成为支撑数字经济的“数字底座”,但同时也面临巨大的碳排放压力。随着芯片与服务器功耗的上升,单机柜功率密度不断增大,传统风冷散热模式在换热性能和能耗优化方面逐渐受限。
液冷技术作为一种新兴的冷却方式,通过液态冷却工质带走发热元件热量,相比风冷具有更多优势,包括支持高功耗芯片解热、延长芯片寿命、降低数据中心PUE、提高换热效率、减少散热热点、支持更高机柜密度、降低噪声并提升环境适应性。因此,液冷技术在未来数据中心建设中的应用将成为制冷方向的重要组成部分,对于实现绿色算力和双碳目标具有重要意义。
全液冷服务器的节点由节点外壳、主板、CPU芯片、内存模组、内存冷板、CPU冷板,IO冷板,电源及电源后置换热器等组成。
1.CPU冷板设计
CPU冷板模组是基于英特尔第五代至强平台可扩展处理器冷板的设计要求,综合考虑散热,结构性能,成品率,价格及不同材质冷板设计兼容性等因素优化而成的一款CPU冷板参考设计,主要由CPU冷板铝支架,CPU冷板及冷板接头等部件组成。
2.内存液冷设计
内存液冷设计采用的是创新型的枕木散热器液冷方案,因内存插满如铁轨上的枕木而得名。它将传统风冷散热和冷板散热相结合,通过内置热管的散热器(或纯铝/铜板、VaporChamber等)把内存上的热量传递至两端,与冷板通过选定的导热垫片接触,最终通过冷板内的冷却工质把热量带走实现内存散热。
内存跟散热器可在系统外通过治具进行组装形成最小维护单元(下文称之为内存模组)。内存冷板上设计有内存模组固定结构可确保散热器和内存冷板之间良好接触,内存模组固定结构根据需要可以用螺丝固定或者无工具维护。内存冷板顶部给内存散热,底部则可以根据需要给主板其他发热元器件散热,比如VR,最大化利用内存冷板。为简化内存冷板设计,内存和主板之间可以设计转接支架来满足不同主板的限高区。
与市场上现有的管路(Tubing)内存液冷方案相比,枕木散热器液冷方案的主要优势有:
易于维护。内存维护时只需像维护风冷内存一样维护内存模组,无需将散热器和扣具取下,极大地提高了液冷内存组装效率和可靠性,降低了内存在系统内拆装时可能对内存颗粒和导热垫片造成的损伤。
**通用性好。**不同内存的颗粒厚度和内存间距不影响该方案的散热性能,该方案最小适应7.5毫米的内存间距,往上兼容。散热器和冷板解耦设计,可重复利用和内存液冷标准化。
**更高的性价比。**内存散热器可根据内存功耗选取不同的工艺和散热技术,且数量可根据内存按需配置。在7.5毫米内存间距情况下,即可满足30W以上内存的散热需求。
**易于制造和组装。**内存插槽之间没有液冷管路,无需复杂的管路焊接和工艺控制,可以采用传统风冷散热器和通用的CPU冷板制造工艺。组装散热器时,散热性能对散热器和主板在垂直于内存颗粒平面方向的公差不敏感,不会出现热接触不良,更容易组装。
**可靠性好。**枕木液冷方案避免了组装过程中可能对内存颗粒和导热垫片造成的损伤,并可满足多次插拔需求。此外,它还避免了内存和管路液冷散热方案安装后内存与插槽间由于倾斜而造成信号接触不良的风险,极大地提升系统可靠性。
3.硬盘液冷设计
创新的固态硬盘液冷方案是通过内置热管的散热器把硬盘区域的热量导出与硬盘区域外的冷板通过导热垫片垂直接触实现换热。
此固态硬盘液冷方案主要由装有散热器的固态硬盘模组,固态硬盘冷板,硬盘模组锁紧机构,及硬盘支架组成。硬盘模组锁紧机构固定在硬盘支架上提供合适的预紧力来保证固态硬盘模组和固态硬盘冷板的长期接触可靠性。为了方便硬盘冷板环路在狭小空间内的安装,硬盘支架在服务器深度方向采用了抽屉式的安装方式设计。
相比业界已有的硬盘液冷尝试,此方案的先进性主要体现在:
●可支持30次以上系统不断电热插拔
●硬盘安装过程中对导热界面材料无剪切破环风险,锁紧机构的设计可以保证长期的接触可靠性
●液冷散热方案对加工工艺要求低,只需采用传统的风冷和CPU冷板加工工艺
●硬盘间无水设计,多硬盘可供用同一冷板,减少了接头数量,降低漏液风险
●可灵活适配不同厚度和数量的固态硬盘系统
4.PCIe/OCP卡液冷设计
4.1 PCIe液冷方案
PCIe卡液冷方案是基于现有风冷PCIe卡,通过开发一款可以与系统冷板接触的PCIe卡散热模块来实现对光模块及PCIe卡上主要芯片的散热。光模块的热量通过热管传导到与PCIe卡主芯片上的散热模块主体,散热模块主体与IO冷板通过合适的导热界面材料接触实现换热。
液冷PCIe卡主要由QSFP散热板夹子、PCIe芯片散热模块及PCIe卡组成。QSFP散热板夹子要设计合适的弹性量,确保与PCIe散热模块上的QSFP散热板和笼子配合实现光模块安装时的合适浮动量,以保证良好的用户体验,避免损坏光模块,并实现良好的接触稳定性而达到预期的散热效果。
4.2 OCP3.0液冷方案
OCP3.0卡液冷方案跟PCIe卡类似,通过给OCP3.0卡定制一款液冷散热器,把卡上发热芯片热量传导到液冷散热器,最终通过散热器与系统IO冷板的接触把热量带走实现散热。
OCP3.0液冷模组主要由散热器模块,OCP3.0卡及其支架组成。锁紧机构由于空间限制采用了弹簧螺钉,以保证液冷OCP3.0卡组装后散热器模块与IO冷板之间的长期接触可靠性。
考虑到后期维护的便利性及OCP3.0卡的多次热插拔需求,锁紧机构的设计和导热界面材料的选型也做了很多优化来提高整体方案的可靠性及运维的便利性。
4.3 IO冷板方案
IO冷板是具有多功能的冷板,不仅仅实现主板IO区域内的发热部件的散热,也实现了液冷PCIe卡和液冷OCP3. 0卡的散热。
IO冷板主要由IO冷板主体和铜管流道组成。IO冷板主体采用铝合金材质,铜管主要承担冷却工质流道和加强散热的作用,具体设计需要根据主板布局及部件的散热要求进行优化。液冷PCIe卡及液冷OCP3.0卡上的散热模块与IO冷板沿箭头方向接触。冷却工质流道材料的选型需要考虑与系统管路冷却工质及浸润材料的兼容性。
此IO冷板液冷方案实现了多个部件在多维度的组装需求,铜铝材质的混合使用,解决了材料兼容性问题,保证散热效果,同时帮助减轻60%冷板重量并降低了成本。
5.电源冷板设计
电源液冷解决方案是在现有风冷电源的基础上通过外接一个风液换热器来冷却PSU风扇吹出的热风,以减少系统对外界数据中心环境的预热。
PSU后置换热器为多层结构,流道与鳍片相互叠加。PSU后置换热器的尺寸须在不影响电源线的插拔功能和满足系统机柜空间限制的条件下,平衡散热需求,重量及成本做出最优选择。PSU后置换热器独立组装在节点支架上。
此创新的电源液冷解决方案,无须重新开发新的液冷专用电源,缩短开发周期,降低开发成本;良好的通用性可以灵活适配多家厂商的电源方案,比定制化液冷电源节约成本60%以上。
针对于整机柜的应用场景,电源液冷还可以采用集中式风液换热器的解决方案,即对整机柜前后门进行封闭,在机柜底部布置一个集中式风液换热器,借助集中式结构替代PSU后置的分布式风液换热器结构。
集中式风液换热器是由喷涂亲水涂层强化换热的铝制波纹翅片,配合高换热系数铜管组成的换热器,可在能够在10℃温差下提供不低于8kW冷却能力;换热器流路仿真优化,在低阻下承载更多流量;具备防凝露设计和全方位漏液检测,杜绝安全隐患。采用特殊的铰链设计,满足高承重要求;同时卡盘式连接设计,方便安装,易于维护。
单台全液冷服务器超过95%热量均由冷板解热,仅有不足5%热量需要风液换热器解热计算,单个节点仅有40-50W风液解热量,单台集中式风液换热器支持8kW换热量,可支持不低于150节点的电源风液散热,且成本远低于150个分布式风液散热器价格。
利用该种方案,服务器电源可以不做任何改造,产生的热量在机柜后部由集中式风液换热器统一收集与热交换,同时该部分热量在机柜内形成自有循环,不会对机房环境造成任何影响,真正做到“Rack as a computer”。