大模型“暴力计算”时代,华为昇腾如何突围算力之困? | WAIC2023

文|姚 悦
编|王一粟

“这两年内,大模型带来了750倍算力需求的增长,而硬件的算力供给(增长)仅有3倍。”华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上,揭开了被大模型“暴力计算”引发巨大算力缺口的真相。

而这个算力缺口还在进一步扩大当中,张迪煊预计,到2030年 AI 所需的算力,相对2020年还会增长500倍。

与此同时,由于众所周知的原因,算力国产化也迫在眉睫。

针对如何补足算力短板,毕马威中国数字化赋能主管合伙人张庆杰认为,需从三大途径解决,分别是算力建设、基础设施的共享与优化、算法的优化和数据的质量。这其中,算力建设被摆在首要位置。

华为在近年算力建设中颇为积极。据中信证券7月研报,国内现有城市智算中心中,以建设数量计,目前华为占据整体智算中心约79%的市场份额。

除了以量取胜,提升算力集群的能力更为重要。就在2023世界人工智能大会上,华为宣布昇腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,算力集群迎来“万卡”时代。

华为轮值董事长胡厚崑表示,昇腾AI的集群相当于把AI的算力中心当做一台超级计算机来进行设计,使得昇腾AI集群的性能效率达到10%以上的提升,而且系统稳定性得到十倍以上的提高。

张迪煊在群访中亦对光锥智能透露,早在2018年,华为就判断人工智能会快速发展,并改变过去小模型的开发模式,形成大算力结合大数据生成大模型的模式,所以华为那时候就开始开发算力集群产品。

步入AI时代,已经无法再像单机系统时代那样靠堆芯片拉升算力,而是要系统化重塑算力基建。在扩大巨量算力供给的同时,要解决算力利用率、使用门槛高等问题,最终还要实现算力生态化。

算力集群迎来“万卡”时代

今年ChatGPT引爆算力需求后,硬件端最先火的是GPU,英伟达总市值年内已经上涨了66%,最新为1.05万亿美元。

以英伟达A100为主的GPU成了大模型必备的香饽饽,但仅靠堆卡也无法应对“百模大战”的爆发之势。那么,如何把宝贵的算力资源,发挥到极致?

既然单个服务器已经很难满足计算需求,于是将多个服务器连接成一台“超级计算机”,正在成为当下“算力基建”的主攻方向,这台“超级计算机”就是算力集群。

2019年,华为就发布了Atlas 900 AI训练集群,当时由数千颗华为自研昇腾910(主要用于训练)AI芯片构成,到今年6月已经支持到8000卡。而在刚刚结束的世界人工智能大会上,华为更是宣布计划今年年底或者明年年初,做到超过16000张卡的集群。

 万卡集群是什么概念?

以1750亿参数量的GPT-3模型训练为例,使用8张V100显卡,训练时长预计要36年,512张V100显卡,训练时间接近7个月,而1024张A100的训练时长可以减少到1个月。

按照华为的评估,训练GPT-3模型,100B的数据量,在8000卡的Atlas 900 AI集群下需1天即可完成训练,16000卡集群下仅需半天即可完成。

但别看“万卡”算力大、效率高,真正想要用它去训练模型,绝非易事。

正像中国工程院院士高文所说,“有人说全世界能在1000块卡上同时选连一个模型的只有几千人,能在4000块卡上训练的不超过100个人,在10000块卡上训练模型的人数更少了”,在千卡和万卡上训练和推理数据,对于软件规划、资源调度挑战非常大。

首先,万卡量级的训练,对分布式并行训练提出了更高的要求。分布式并行训练是一种高效的机器学习方式,将大规模数据集分成多个部分,再在多个计算节点上并行训练模型。这样可以极大缩短训练时间,提高模型准确性和可靠性。

昇腾算力集群的分布式并行训练,就需要倚仗华为自研的昇思MindSpore AI框架。

昇思MindSpore支持多种模型类型,还开发了一套自动混合并行解决方案,实现数据并行和模型并行的混合并行训练。

相同算力和网络下,这样的双并行策略可实现更大的计算通信比,同时还解决了手动并行架构的现实困难,让大模型开发和调优效率提升。

此外,由于分布式并行训练,每训练出一个结果,需要所有的芯片同步一次,这个过程中,会有出错的概率。这种情况放在万卡规模量级上,就对于稳定性提出更高要求。

“昇腾的可靠性和可用性的设计,可以做到30天长稳的训练,对比业界的最先进3天左右水平,提升了将近10倍性能的稳定性、可用性优势。”张迪煊表示。

算力集群的效率如何提升?

算力集群还不仅仅是规模扩大,效率也需要有很大提升,否则就会出现卡数越多,算力利用率反而下降的问题。

以华为在内蒙古乌兰察布市部署的数千卡规模的AI集群为例,在同等算力下,计算效率能够提升10%以上。

如果按照昇腾的指标,1000卡的算力约300P,千卡就能提升约30P,万卡就能提升约300P。

“300P算力24小时可以处理数十亿张图像、数千万人DNA、10年左右的自动驾驶数据。”一位从事云计算业务的人士向光锥智能表示,提升算力效率,也就降低了计算成本。

如果说从千卡的300P到万卡的3000P还得靠堆卡“大力出奇迹”,那这10%的效率提升,背后就需要更为复杂的系统性升级。

除了整合华为的云、计算、存储、网络、能源综合优势,昇腾算力集群还进行了架构创新。

一台服务器就是一个节点,华为在计算节点层面创造性推出了对等平构架构,突破传统了以CPU为中心的异构计算带来的性能瓶颈,从而提升整个计算的带宽、降低时延,节点性能得到30%的提升。

 此外,算力可是用电超级大户,尤其是上百台服务器联合起来,降低能耗也需要同步实现。

计算能力提升,服务器能耗也越来越高,传统风冷已经无法支撑高散热,就亟需解决如何能在政策严格限制PUE(电力使用效率)的情况下,仍保证服务器散热能力的问题。

在几种散热路线中,液冷被认为是主流的解决方案之一。

液冷方案本就比传统风冷方案更省电,昇腾采用了直接把冷夜注入每块芯片的精准供给方式,相比浸没式(流浪地球中放入海底的方案),可以降低日常运维的成本,也减少冷却液泄露污染环境的风险。

“精准供给取决于芯片板卡上都设置传感器、电控阀门,再加上中央控制,可以实现为不同芯片在不同的负荷下,提供精细化冷量输送。”华为计算工作人员向光锥智能介绍。

2021年11月,发改委等部门发布的文件明确指出,新建大型、超大型数据中心PUE低于1.3,而内蒙古、贵州、甘肃、宁夏节点的数据中心的PUE更是要控制在1.2以下。昇腾的算力集群已经实现低于1.15的PUE。

降低算力门槛,要靠生态

“电力是即插即用的,基本上不需要教老百姓怎么用。而算力,即便你提供给企业,很多人是不会用的。”中国工程院院士、中国互联网协会咨询委员会主任邬贺铨表示,现在算力(使用)门槛太高。

一位业内人士也向光锥智能表示:“中小企业很难得到训练服务器的技术支持,加上国产软件生态缺失,中小企业也很难自己玩转。”

即便算力集群怎么强大,需求端打不开,也终将会制约整个算力发展。而AI算力能否达到像电力一样的“低门槛”使用标准,生态尤为重要。

这也是为什么英伟达当年遭受华尔街的“白眼”,也要不计成本投入CUDA软件系统的原因。正是CUDA,实现让一个普通学生就可以进行显卡编程,英伟达进而利用软硬件协同,打造生态系统,最大程度扩大了算力供应。

除了英伟达,苹果在实现良好的用户体验方面,更早印证了生态系统的重要性。

当前,华为昇腾已经搭建了一套自主创新的软硬件全栈系统,包括昇腾AI集群系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等。CANN正是对标英伟达的CUDA + CuDNN的核心软件层。

 张迪煊表示,“昇腾AI支持了中国近一半原创大模型的原生创新,也是目前国内唯一完成千亿参数大模型开发并商用的技术路线,各开源的Transformer类大模型实测训练性能,可以达到业界的1.2倍。”

这些背后,则是华为将上述的软件开源、硬件开放。

首先,在基础软件上,昇腾围绕大模型开发、训练、微调、推理等全流程,进行了一系列的开源和支持。

除了已将AI框架昇思MindSpore开源,昇腾还提供了大模型的开发套件,可以支持十几行代码的全流程脚本开发。用张迪煊的话讲,就是“为了让大模型开发做到开箱即用”。

微调是大模型具备行业属性的关键环节,对应用效果起决定性作用。对此,华为昇腾提供了低参微调模块,集成了多种微调算法。张迪煊介绍,包括 LoRA、P-Tuning 等仅需 5%的微调参数,可实现全参微调的效果。

此外,针对大模型推理部署难、成本高等一系列的问题,华为昇腾在开发工具链 MindStudio 上集成了自动剪枝、蒸馏、量化工具,“精度损失0.5%的基础上,做到了20倍的模型压缩”张迪煊介绍,推理阶段支持在线分布推理,能够使应用快速上线,推理时延小于50毫秒。

“张迪煊介绍,推理阶段支持在线分布推理,能够使应用快速上线,推理时延小于50毫秒。

硬件方面,华为也对外提供主板、SSD、网卡、RAID卡、Atlas模组和板卡,来支持合作对象的AI硬件产品开发。

基于当前算力供应紧缺的情况,华为昇腾也重点针对“算子和模型”,提出了的迁移、适配的方案。

训推一体化行业落地最后一公里

在初步搭建算力生态后,能否持续良性运转,最终还要回归到大模型商业化的问题上。

“不作诗,只做事”,华为刚刚发布的大模型盘古3.0,与其他国内大模型一样,落地的重点都放在了“行业”身上。而且盘古大模型已经在天气预测、药物研发和选煤等诸多行业、超过1000个项目中“上岗”。

不过,对于国产大模型整体来说,在深度满足行业需求上,还面临一些问题。

“企业的需求非常具体,比如‘在这堆垃圾里,识别出有价值的金属’,这经过训练的小学生就可以做到,而对于大模型,企业的这种需求就太重了,而且可能最终的效果也不是很好。”企业服务商用友的一位工作人员向光锥智能表示,直接调用通用AI能力,无法满足行业中广泛存在的差异化智能需求。

华为把大模型分成三个层级,L0、L1、L2。L0就是基础通用模型,在基础模型L0的基础上,加上行业数据,混合训练得到的行业大模型是L1,然后再把L1针对具体下游千行百业的细分场景进行一些部署,得到细分场景的任务模型L2。

现在,无论是对于华为还是其他大模型企业,如何从行业大模型L1中快速生产L2模型,还有部署L2模型到端侧、边侧和云侧,成为打通行业应用最后一公里的问题。

针对这最后一公里,昇腾联合科大讯飞、智谱AI、云从等上游的大模型合作对象,提出了“训推一体化”方案。

简单理解,做模型训练就相当于大学学习阶段,推理部署(训练好的模型在特定环境中运行)就是正式上岗,训推一体化就是“边学习边实习”。

通用大模型一般都是基于广泛的公开文献与网络信息来训练,信息混杂,许多专业知识与行业数据积累不足,会导致模型的行业针对性与精准度不够,数据“噪音”过大。同时,又由于行业数据获取难,技术与行业结合难,大模型在行业的落地进展较慢。

训推一体化,支持中心节点将模型下发至企业的边缘节点进行推理,边缘站点再将数据回传至中心,进行算法更新和增量训练,实现自主演进能力。也就是,“学生主动向更适应就业岗位的方向深造”。

这样一来,就保证训练到推理的循环生产流程不再割裂。并且把发展行业大模型更大的主动权,交到了行业和企业自身,无疑能最大化满足行业的AI应用与开发场景,实现AI基础设施与行业需求深度融合。

相较于中心训练、边缘推理,训推一体化对于中小企业来说,部署成本也会更低,更会加速中小企业加入行业、场景大模型的“培养”。

对于整个算力生态来说,尽快打通这最后一公里,也就意味着被真正激活,才会有可持续的发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22682.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生成式AI成硅谷风投新宠儿,1年78起融资共投入93亿,多家公司估值飙升至数十亿...

明敏 发自 凹非寺量子位 | 公众号 QbitAI 生成式AI,真的火透了。 就连正处于科技寒冬中的硅谷风投们,都纷纷把资金砸向这一前沿领域。 PitchBook统计数据,2022年投资圈向生成式AI公司共投入13.7亿美元(折合人民币约93.69亿元&…

每年假期 23 天起的英伟达,单日市值暴涨 2000 亿美元!

大家好!我是韩老师。 英伟达在业界的福利,还是挺不错的: NVIDIA 宣布给员工额外再送 8 天带薪假期!每年假期 23 天起!NVIDIA Yes!6周带薪陪产假,再额外多发3周的工资! 借着 AI 大火&…

一日之内,市值暴涨了超2000亿美元,老黄这波赢麻了!

来源:量子位 英伟达,即将成为第一家市值破1万亿美元的芯片公司! 而且是仅在一天内,市值暴涨了超2000亿美元的那种。 什么概念? 相当于涨出了一个AMD、两个英特尔、三个美光…… 用雅虎财经的话来评价: 这是…

巴比特 | 元宇宙每日必读:OpenAI正式推出多模态大模型GPT-4,有哪些质的变化?百度能否一战?...

摘要:3月15日凌晨,OpenAI在官网上宣告了多模态大模型GPT-4的诞生。GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本&#x…

爆料:OpenAI工程师年薪90万美元!Sam Altman独创特殊股权给员工「画饼」

夕小瑶科技说 分享 来源 | 新智元 作为当今最热门、最神秘的AI初创公司,OpenAI的薪酬结构究竟是怎样的?外国招聘网站记者为我们独家揭秘。 OpenAI员工的薪资结构,一直是一个谜。对于员工薪酬如何运作、如何评估,OpenAI始终守口如…

30分钟访谈,微软CEO详解人工智能:堪比工业革命,这辈子第一次见这么大的技术浪潮!...

来源:每日经济新闻 跨国金融服务公司UBS近日发布了一篇研究报告显示,各项技术中,“当红炸子鸡”ChatGPT达到全球1亿用户所需时间仅用2个月,而电话用了75年,手机的普及则用了16年。 OpenAI推出的这款聊天式机器人一经问…

微软CEO:堪比工业革命,这辈子第一次见这么大的技术浪潮!

Datawhale干货 推荐:Datawhale成员,来源:每日经济新闻 跨国金融服务公司UBS近日发布了一篇研究报告显示,各项技术中,“当红炸子鸡”ChatGPT达到全球1亿用户所需时间仅用2个月,而电话用了75年,手…

莫言用 ChatGPT 写颁奖辞;微软CEO反驳马斯克:我们没有控制OpenAI;SQLite 3.42.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

OpenAI热钱投向造芯!押注一老一少半导体传奇组合,乔布斯和马斯克都曾赞不绝口...

艳艳 金磊 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT如日中天,OpenAI暗中又落一子。 落在哪里?芯片。 本月,它与GitHub前CEO等2位投资人,帮助一家美国芯片商完成了1500万美元(约合人民币1.04亿)的天使轮融…

涂鸦智能冲刺IPO,不卖硬件的AIoT公司,团队阿里云出身,腾讯是大股东

晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一家创始团队来自阿里,却被腾讯持股10.8%的公司,这周要上市了。 近日,IoT公司涂鸦智能向美国SEC提交了更新后的招股书,计划3月19日在纽交所挂牌。 招股书显示,涂鸦智能发…

CHB-MIT波士顿儿童医院癫痫EEG脑电数据处理-癫痫发作预测(六)

CHB-MIT波士顿儿童医院癫痫EEG脑电数据处理-癫痫发作预测(六) 导入需要的包各功能模块数据集导入模型训练训练结果保存模型测试结果 导入需要的包 import numpy as np import matplotlib.pyplot as plt from tensorflow import keras import tensorflo…

SER论文阅读:SPEECH EMOTION RECOGNITION WITH CO-ATTENTION BASED MULTI-LEVEL ACOUSTIC INFORMATION

论文:https://arxiv.org/abs/2203.15326 代码:https://github.com/vincent-zhq/ca-mser Title: SPEECH EMOTION RECOGNITION WITH CO-ATTENTION BASED MULTI-LEVEL ACOUSTIC INFORMATION 题目:基于共注意的多层次声学信息语音情感识别 语音…

【英语演讲】Informative Speech

写在前面: 本专栏用于收纳我本学期在《英语演讲》课上的present的所有演讲文稿,一来是记录文案防止在自己电脑上误删了hh(虽然成功传上来我可能就立马会删掉orz),二来是方便大家学习与交流(啦)。…

动画对话框实现

炫酷的动画对话框 关键技术 AlertDialog的自定义 代码 //创建对话框实例dlg new AlertDialog.Builder(this).create();dlg.show(); //显示对话框Window window dlg.getWindow(); //获取对话框窗口window.setGravity(Gravity.CENTER); …

chatgpt智能提效职场办公-ppt怎么蒙层

作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 在 PowerPoint 中添加蒙版图层,可以在幻灯片中创建一个半透明的矩形或形状,并在其上方添加或放置其他对象。 下…

作文批改网如何粘贴英语作文

批改网的英语作文不允许被粘贴的话,下面提供四种办法使用复制粘贴功能:   1。移除监听事件即可开启 在浏览器中打开,鼠标右键选择检查,或者按快捷键F12打开调试窗口 点击Console 输入以下代码: $(#contents).…

ChatGPT实战100例 - (01) 秒出思维导图

文章目录 ChatGPT实战100例 - (01) 秒出思维导图一、需求与思路1. 需求:快速的头脑风暴2. 思路:生成markdown然后转化嗯 二、生成markdown语法的思维导图1. 问题2. 回答 三、把markdown文本转换成思维导图1. 转换2. 下载 ChatGPT实战100例 - (01) 秒出思…

ChatGPT解答:PYQT5 的mwindow源码文件里面写了很多的函数方法,随着时间的推移越来越多,代码行数太多,影响了性能,如何解决

ChatGPT解答: PYQT5 的mwindow源码文件里面写了很多的函数方法,随着时间的推移越来越多,代码行数太多,影响了性能,如何解决 以下为可复制的内容与实例: PYQT5 的mwindow源码文件里面写了很多的函数方法&a…

如何正确定位自己,并婉拒多的offer

前言 如果你采用了前文介绍的方法,也拿到了多家公司的offer。那么选择困难的时候,就需要你正确定位自己,做出决策。这时,你也要想明白你到底是要什么。我推荐给你的方法是...... 1. 正确定位自己 在自己评估自己的时候&#xff0c…

程序员找工作竟遭25家公司的婉拒!网友:真心佩服他的勇气~

每个人的追求不一样,也许是因为我本身是一个没有野心的人,所以比较容易知足,不太愿意花那么多的时间和精力去追逐功名利禄,但是最近看到下面这个程序员网友的经历使我燃气了熊熊的欲望之火 可见,这名程序员的坚持并没有…