揭秘云计算 | 5、关于云计算效率的讨论

一、 公有云效率更高?

解:公有云具有更高的效率。首先我们需要知道效率到底指的是什么。这是个亟须澄清的概念。在这里效率是指云数据中心(我们将在后文中介绍其定义)中的IT设备资源利用率,其中最具有代表性的指标就是CPU的综合利用率。当然,如果把诸如内存、网络、存储等因素都考虑进来会更全面,不过为了便于讨论,我们在本小节着重讨论CPU的资源利用率。

图1-22 我国数据中心能耗分布情况(PUE值=2)

在数据中心中,我们习惯用电能利用效率(Power Usage Effectiveness,PUE)表示电力资源的利用率,它的计算式为PUE值=(C+P+I)/I,其中,C表示制冷、取暖等为保持机房环境温度而耗费的电量,P表示机房中非IT设备供电所耗费的电量,I表示IT设备耗电量。显然PUE值不可能小于或等于1,事实上全球范围内大多数云机房的PUE平均值大于2,而先进机房的PUE值几乎可以达到1.1,甚至是1.06,说明先进机房有着相当惊人的高电能利用率。我国从2013年开始要求新建数据中心的PUE值小于1.5,原有数据中心改造后的PUE值小于2,见表1-4。图1-22中列出的是2020年艾瑞咨询研究院公布的我国数据中心能耗分配情况,在PUE值等于2.0的情况下,IT设备能耗占比最大,制冷系统能耗次之,照明及其他设备能耗是最少的。此外,即使使用的技术相同,数据中心在不同地区的指标也不尽相同。例如,年平均气温较低的区域用于制冷系统的能耗会大幅降低,PUE值就较低。当然,各地的PUE要求也不同,一线城市和东部地区更为严格,且不同地区的电价也不同。

 

表1-4 部分城市的年平均气温和数据中心PUE要求

公有云的CPU资源利用率会高于私有云的吗?让我们用数据来说话,图1-23展示了数据中心能耗分配情况,图1-24列出了目前市场上主流的公有云/私有云服务器主机CPU的平均利用率。

图1-23 数据中心能耗分配情况

图1-24中的数据清晰地说明了公有云服务器主机CPU的平均利用率远低于私有云,甚至亚马逊公司的AWS和微软公司的Azure都只有10%左右,相当于每10台服务器中只有一台在满负荷运转而另外9台在空转。同比私有云环境下的谷歌公司,其服务器主机CPU的平均利用率可以达到30%,曾是易安信(EMC)公司旗下的Virtustream甚至能达到惊人的70%。

图1-24 公有云、私有云服务器主机CPU的平均利用率比较[插图]

公有云IT资源利用率较低的成因是公有云业务场景的多样化与负载高度的不可预知性。当CPU资源在被分配给某用户后,如果没有被该用户充分利用,就会出现CPU空转,进而造成事实上的浪费的情况。同样的问题也存在于其他资源分配上,例如网络带宽、磁盘空间等,这是基于时间共享“虚拟化”的必然结果。类似的基于时间共享技术的应用还有很多,比如蜂窝网络。时间共享的设计原则是“公平分配”​,以确保每个被服务对象在单位时间内可获取同样多的资源,但平均主义也会造成在均分资源后因资源被闲置、空转而形成的事实浪费。

如何提高云数据中心的资源利用率呢?从数据中心能耗分布的角度而言,云主机服务器组件(尤其是CPU)每消耗1W,不间断电源(Uninterruptible PowerSystem,UPS)、空调制冷,以及配电箱、变压器等其他设备就会连带消耗1.84W。反之,如果能让CPU少消耗1W,那么这会为整个数据中心节能2.84W。图1-25是艾默生电气公司(Emerson)网络能源的统计数据。我们称这种瀑布流式的“级联”效应为叶栅效应、级联效应。

图1-25 Emerson网络能源的统计数据

现在我们知道提高效率的核心是提高CPU的利用率或降低单位时间内整体CPU的能耗,这两个方向的最终目标是一致的。绝大多数的数据中心在提高资源利用率、降低能耗上有以下两种不同的路径:

(1)优化供给侧;

(2)优化需求侧。

优化供给侧并非本书关注的重点,不过为了全面起见,我们在此略作介绍。优化供给侧可以从以下几个方面来实施。

(1)在数据中心供电环节与发电环节上进行优化。

①围绕储能系统的效率进行优化。

②围绕数据中心发电环节进行优化。

(2)在数据中心机房温度控制环节上进行优化

①优化空调制冷系统。

②优化空气流动系统。在数据中心中,市电先通过交流电到直流电的转换对储能系统进行充电,储能系统中常见的设备是UPS(或飞轮)​。

图1-26中列出了三大类数据中心储能系统,常见的是电化学储能,即我们常说的UPS。机械储能系统也经常被用到,电磁储能较少见,但未来如果相关技术有所突破,相信它在储能效率上也会得到相应提高。之后,UPS再把直流电转换为交流电为电源分配单元(Power DistributionUnit,PDU)供电。在这个二元连续(交流电—直流电—交流电)的转换过程中,电力存在损耗,以及生成大量废热需要制冷系统来降温。结合图1-23可知,供电与空调制冷的能耗占整个数据中心能耗的10%~47%,这里的范围表示从只供电但不制冷到既供电又制冷的能耗范围。 

图1-26 三大类数据中心储能系统

如何提高UPS效率,甚至是找到UPS替代方案是业界主要的努力方向。谷歌公司的经验是采用分布式UPS及电池系统直接对服务器机柜进行交流供电,在此过程中仅需要一次交流电到直流电的转换,由此可达到99.9%的UPS效率,远高于业界的平均效率(80%~90%)。其他常见的做法还有提高UPS到PDU电压、更新/升级UPS或直接对服务器进行高压直流输电等。

UPS替代方式越来越受到业界的重视。例如燃料电池技术和智能电源虚拟化技术,它们的一个共性是在整个供电过程中不再需要UPS、PDU和变压器单元,开关设备也变得简单。图1-27展示了使用软件定义电源技术前后数据中心配电系统的变化。

 

图1-27 使用软件定义电源技术前后数据中心配电系统的变化

数据中心有严格的温度与湿度控制机制,保证IT设备在最优环境下发挥性能。新建的数据中心及改造的数据中心通常都会对冷热气流进行管理,例如服务器机柜冷热通道交替排列、规范布线。数据中心冷热气流管理如图1-28所示,服务器机柜冷热通道交替排列如图1-29所示,规范布线前后对比如图1-30所示。

图1-28 数据中心冷热气流管理

 

图1-29 服务器机柜冷热通道交替排列
图1-30 规范布线前后对比

以上我们简要介绍了云数据中心供给侧的一些优化方式。下面我们将主要关注云数据中心需求侧的优化手段。

二、 云计算优化要论

云数据中心需求侧优化的核心是提高IT设备的利用率。提高过程通常分为以下3个步骤。

步骤1:IT资源虚拟化。

步骤2:优化IT资源效率。

步骤3:数据中心云平台化。

(1)IT资源虚拟化

云数据中心的基本特点是多租户,对多租户场景最好的支持是资源虚拟化。业界最早是从服务器虚拟化开始的,紧随其后的是网络虚拟化,再之后是存储虚拟化,相关的详细讨论可参考《软件定义数据中心:技术与实践》这本书。值得指出的是虚拟化是个宏观的概念,它包括硬件虚拟化,也包括软件虚拟化,但最终是通过软件接口与用户层应用对接,这也是为什么我们称之为软件定义数据中心(Software Defined Data Center,SDDC)。此前我们一直把服务器、网络与存储称为软件定义数据中心的三大支柱,现在看来应该是四大支柱——还有电源虚拟化和电力优化,如图1-31所示。从虚拟化进程完善程度来看,四大支柱是按照计算→网络→存储→电源电力降序排列,顺序越往后挑战越大,但是市场的机遇也越大,这正如阿尔伯特·爱因斯坦(Albert Einstein)所说:困难之中蕴藏着机遇。

图1-31 软件定义数据中心的四大支柱

(2)优化IT资源效率

围绕优化数据中心IT资源效率,特别是提高CPU资源利用率(或降低CPU能耗)​,我们可以将节能技术分为4类,如图1-32所示。

图1-32 4类节能技术

 

①动态电压和频率调控技术

动态电压和频率调控技术是常见的能耗管理技术,特别是在对多核处理器、动态随机存储器(Dynamic Random Access Memory,DRAM)管理上。基于CMOS电路的能耗方程如下:

总能耗=静态能耗+动态能耗

我们可以通过调节时钟频率来调节电压,并由此降低能耗。但是,频率降低也意味着降低了处理器元器件的性能,因此并非一味降低处理器频率、降低电压就万事大吉了,还要在遵循服务质量/服务级别协议(QoS/SLA)要求的前提下进行相关的智能调控。业界常见的实践是在系统各部件负载较低的情况下降低供电频率、电压,并监控系统负载,根据需求动态调节,以保障满足服务级别协议。

②负载调度技术

负载调度技术在所有大型云数据中心的效率博弈中可能是贡献最大的。它的基本原理非常简单,但实现起来一点都不简单——最差的情况当然是把所有IT设备都打开,但是每台设备处于空转或低负载运转的状态;最优的情况就是让每台运转中的设备达到满负荷、全速运转,而其他设备都处于下线、不供电状态。参考图1-24我们发现,曾是易安信(EMC)公司云产品的Virtustream,以70%的资源利用率几乎实现了最优状态,而多数公有云显然还处于大量浪费IT资源的状态(利用率仅达10%,甚至更低)​。需要指出的是,公有云的负载多样性及不可预见性在一定程度上使得负载调度变得更为复杂;反之,私有云中负载模式的可预测度很高,更容易实现调度优化。负载调度与迁移的实现有很多方式,虚拟机迁移、容器迁移都是近些年业界使用越来越多的方式。不过业界存在一种普遍的观点,认为容器的迁移会全面取代虚拟机迁移。我们以为这么说为时尚早,容器技术在支持有状态服务(如数据库类服务)​、安全性、隔离性及生态系统建设上与虚拟机还相差甚远,不过对于无状态服务(如Web类服务)​,容器架构的低时延和高速性优势就很明显。在负载调度中,我们认为容器、虚拟机,甚至是裸机形式的调度需求会长期并存。

③服务器集中、能耗状态转换技术

服务器集中、能耗状态转换技术通常会与前两项技术共用,帮助提高资源利用率或降低能耗。一种典型的做法是在数据中心使用异构的硬件平台,也就是说在低负载情况下使用低功耗、低性能系统,当负载增长后再通过任务调度把负载移向高性能系统。这么做的好处很显然,但是如果发生频繁的负载、任务迁移,那么迁移成本也是需要考量的因素。另一种做法是通过智能硬件监控系统负载,只保留部分IT组件在线而让其他组件进入休眠状态,比如有些操作只需要内存,那么CPU、硬盘、网络设备便可以休眠,由此达到节省能耗的目的。

④热感知技术

在图1-25中我们展示过服务器CPU能耗的级联效应,当CPU运转时会产生热能,而机房中的主要热源来自运转的IT设备。为了保证机房的温度,空调等制冷系统又要耗费更多的电力。如何智能分配负载来保证整体能耗降低是热感知技术的核心理念。一种做法是在刀片机柜中通过把新增负载加载到现有活跃刀片机,而非新启动一个刀片机柜(刀片机组会共享电源与风扇,启动新的刀片机组能耗需求会相对更高)来实现低的热散逸;另一种做法是针对机房中热点分布与空调制冷系统和温度传感器的相对位置来定向调节在不同位置的服务器的负载,以达到节能的目的。

要指出的是,IT设备的效率指标不能单纯地以利用率来衡量,也就是说效率与利用率(温度)之间并非是单纯的线性关系。以CPU为例,当CPU负载在95%以上之后,持续升温到一定程度反而会降低其性能,直到超载崩溃,因此,一味追求高利用率并非问题的解决之道。

(3)数据中心云平台化

数据中心云平台化是资源虚拟化后,实现资源管理、调度高度协同的一个必然的发展方向。在云的多重形态一节中,我们已经介绍了XaaS平台,在下一篇内容里,老夫会介绍业界建设云平台的一些最佳实践。(同时呢,这一篇中,老夫介绍了一些业界提高IT设备效率的做法,希望能起到抛砖引玉的效果。有兴趣深究的读者可以继续查询、阅读相关的专业论文与图书。)

· END ·

(文/ Ricky)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/477669.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【终端美化】Ubuntu 下 Zsh 与 Oh-My-Zsh 美化与插件配置指南

目录 1. 检查是否已安装 zsh2. 安装 zsh3. 设置 zsh 为默认 Shell4. 安装 oh-my-zsh4.1 使用 curl 安装4.2 使用 wget 安装(如果 curl 不可用)4.3 迁移 Bash 自定义配置到 Zsh打开Files并显示隐藏文件复制需要的配置内容粘贴到 Zsh 配置文件保存并关闭文…

Spring Boot与MyBatis-Plus的高效集成

Spring Boot与MyBatis-Plus的高效集成 引言 在现代 Java 开发中,MyBatis-Plus 作为 MyBatis 的增强工具,以其简化 CRUD 操作和无需编写 XML 映射文件的特点,受到了开发者的青睐。本篇文章将带你一步步整合 Spring Boot 与 MyBatis-Plus&…

html+js实现图片的放大缩小等比缩放翻转,自动播放切换,顺逆时针旋转

效果图&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>图片预览</title><sty…

【Python】爬虫实战:高效爬取电影网站信息指南(涵盖了诸多学习内容)

本期目录 1 爬取思路 2 爬虫过程 2.1 网址 2.2 查看网页代码 3 爬取数据 3.1 导入包 3.2 爬取代码 01 爬取思路 \*- 第一步&#xff0c;获取页面内容\*- 第二步&#xff1a;解析并获取单个项目链接 \*- 第三步&#xff1a;获取子页面内容 \*- 第四步&#xff1a;解析…

SpringBoot多文件上传

多文件上传是在单文件上传的基础上修改而来&#xff0c;不了解单文件上传可以参考上一篇。以下在将修改部分展示如下&#xff1a; 一、修改upload.html文件&#xff1a; <!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <title&g…

[RabbitMQ] 重试机制+TTL+死信队列

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

Prometheus结合K8s(二)使用

上一篇介绍了如何搭建 Prometheus结合K8s&#xff08;一&#xff09;搭建-CSDN博客&#xff0c;这章介绍使用 页面访问 kubectl get svc -n prom 看promeheus和granfana的端口访问页面 Prometheus 点击status—target&#xff0c;可以看到metrics的数据来源&#xff0c;即各…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05目录1. LLM App Squatting and Cloning2. Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge3. A Comp…

【SQL Server】华中农业大学空间数据库实验报告 实验三 数据操作

1.实验目的 熟悉了解掌握SQL Server软件的基本操作与使用方法&#xff0c;以及通过理论课学习与实验参考书的帮助&#xff0c;熟练掌握使用T-SQL语句和交互式方法对数据表进行插入数据、修改数据、删除数据等等的操作&#xff1b;作为后续实验的基础&#xff0c;根据实验要求重…

LDR6020驱动的Type-C接口显示器解决方案

一、引言 随着科技的飞速发展&#xff0c;Type-C接口凭借其高速数据传输、强大的电力传输能力以及便捷的正反可插设计&#xff0c;正逐渐成为现代电子设备的主流接口标准。在显示器领域&#xff0c;Type-C接口的引入不仅简化了线缆连接&#xff0c;还为用户带来了更丰富的功能…

Spring |(四)IoC/DI配置管理第三方bean

文章目录 &#x1f4da;数据源对象管理&#x1f407;环境准备&#x1f407;实现Druid管理&#x1f407;实现C3P0管理 &#x1f4da;加载properties文件&#x1f407;第三方bean属性优化&#x1f407;读取单个属性 学习来源&#xff1a;黑马程序员SSM框架教程_SpringSpringMVCMa…

三十一、构建完善微服务——API 网关

一、API 网关基础 系统拆分为微服务后&#xff0c;内部的微服务之间是互联互通的&#xff0c;相互之间的访问都是点对点的。如果外部系统想调用系统的某个功能&#xff0c;也采取点对点的方式&#xff0c;则外部系统会非常“头大”。因为在外部系统看来&#xff0c;它不需要也没…

(免费送源码)计算机毕业设计原创定制:Java+JSP+HTML+JQUERY+AJAX+MySQL springboot计算机类专业考研学习网站管理系统

摘 要 大数据时代下&#xff0c;数据呈爆炸式地增长。为了迎合信息化时代的潮流和信息化安全的要求&#xff0c;利用互联网服务于其他行业&#xff0c;促进生产&#xff0c;已经是成为一种势不可挡的趋势。在大学生在线计算机类专业考研学习网站管理的要求下&#xff0c;开发一…

社交电商专业赋能高校教育与产业协同发展:定制开发AI智能名片及2+1链动商城小程序的创新驱动

摘要&#xff1a;本文围绕社交电商有望成为高校常态专业这一趋势展开深入探讨&#xff0c;剖析国家政策认可下其学科发展前景&#xff0c;着重阐述在专业建设进程中面临的师资短缺及实践教学难题。通过引入定制开发AI智能名片与21链动商城小程序&#xff0c;探究如何借助这些新…

Linux各种并发服务器优缺点

本文旨在介绍针对“无并发C/S模型”改进的方法总结以及各种改进方法的优缺点&#xff0c;具体函数的实现并不介绍。 1. 无并发C/S模型 创建服务器流程分析&#xff1a; socket()创建服务器的监听套接字bind()将服务器给服务器的监听套接字绑定IP地址和Port端口号listen()设置…

基于AXI PCIE IP的FPGA PCIE卡示意图

创作不易&#xff0c;转载请注明出处&#xff1a;https://blog.csdn.net/csdn_gddf102384398/article/details/143926217 上图中&#xff0c;在FPGA PCIE卡示意图内&#xff0c;有2个AXI Master设备&#xff0c;即&#xff1a;PCIE到AXI4-Full-Master桥、AXI CDMA IP&#xff1…

【漏洞复现】|智互联SRM智联云采系统quickReceiptDetail SQL注入漏洞

漏洞描述 智互联(深圳)科技有限公司SRM智联云采系统针对企业供应链管理难题&#xff0c;及智能化转型升级需求&#xff0c;智联云采依托人工智能、物联网、大数据、云等技术&#xff0c;通过软硬件系统化方案&#xff0c;帮助企业实现供应商关系管理和采购线上化、移动化、智能…

el-table-column自动生成序号在序号前插入图标

实现效果&#xff1a; 代码如下&#xff1a; 在el-table里加入这个就可以了&#xff0c;需要拿到值可以用scope.$index ​​​​​​​<el-table-column type"index" label"序号" show-overflow-tooltip"true" min-width"40">…

如何利用 Puppeteer 的 Evaluate 函数操作网页数据

介绍 在现代的爬虫技术中&#xff0c;Puppeteer 因其强大的功能和灵活性而备受青睐。Puppeteer 是一个用于控制 Chromium 或 Chrome 浏览器的 Node.js 库&#xff0c;提供了丰富的 API 接口&#xff0c;能够帮助开发者高效地处理动态网页数据。本文将重点讲解 Puppeteer 的 ev…

“小浣熊家族AI办公助手”产品体验 — “人人都是数据分析师”

一、引言&#xff1a; 大家平时应该在工作中常常使用到Excel来做数据统计&#xff0c;比如临近过年时&#xff0c;公司一般会开各种复盘、年终、检讨、明年规划大会&#xff0c;势必需要准备一大堆的量化数据报表&#xff0c;用于会议上的数据汇报、分析工作&#xff0c;试想一…